預(yù)測(cè)性維護(hù)是通過(guò)監(jiān)控設(shè)備的運(yùn)行狀況和使用情況來(lái)實(shí)施智能、動(dòng)態(tài)和可擴(kuò)展的策略。這導(dǎo)致越來(lái)越多的機(jī)構(gòu)投資資源,以實(shí)現(xiàn)其當(dāng)前維護(hù)策略的現(xiàn)代化。資產(chǎn)密集型鋼鐵行業(yè)也一直在采用預(yù)測(cè)性維護(hù)策略,作為現(xiàn)代化和關(guān)鍵競(jìng)爭(zhēng)優(yōu)勢(shì)的一部分。有必要構(gòu)建能夠從操作數(shù)據(jù)中學(xué)習(xí)并主動(dòng)指導(dǎo)維護(hù)團(tuán)隊(duì)的自動(dòng)化系統(tǒng)。本文將分享在鋼鐵廠內(nèi)建立和部署這種系統(tǒng)所面臨的關(guān)鍵挑戰(zhàn),該系統(tǒng)目前正在多個(gè)關(guān)鍵設(shè)備上實(shí)時(shí)運(yùn)行。
在智能制造環(huán)境中,監(jiān)測(cè)和預(yù)測(cè)關(guān)鍵設(shè)備的運(yùn)行狀況是預(yù)測(cè)性維護(hù)策略的重要組成部分。隨著邊緣和云計(jì)算信息處理的快速發(fā)展,它能夠在接近真實(shí)操作時(shí)間交付結(jié)果。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的最新發(fā)展表明,設(shè)備運(yùn)行狀況預(yù)測(cè)的成功算法越來(lái)越多。與人工編碼的規(guī)則不同,這些算法通過(guò)學(xué)習(xí)機(jī)器狀態(tài)的演變來(lái)生成預(yù)測(cè)。
本文介紹的研究工作結(jié)合了無(wú)監(jiān)督和有監(jiān)督的機(jī)器學(xué)習(xí)算法。提供給這些算法的時(shí)間序列數(shù)據(jù)由傳感器特征(自變量)和目標(biāo)標(biāo)簽(因變量)組成。自變量集可以擴(kuò)展,以包括其他相關(guān)的工藝信息。無(wú)監(jiān)督算法只對(duì)自變量集進(jìn)行操作,通常可以識(shí)別由這些變量的子集所跨越的有意義區(qū)域。這些區(qū)域由它們與過(guò)程狀態(tài)的關(guān)系決定,以確??山忉屝?。另一方面,有監(jiān)督的算法在這種情況下需要一個(gè)目標(biāo)標(biāo)簽,比如故障事件的時(shí)間標(biāo)識(shí)。本文的目標(biāo)是從自變量所跨越的空間中預(yù)測(cè)目標(biāo)標(biāo)簽或目標(biāo)標(biāo)簽的某個(gè)功能。需要強(qiáng)調(diào)的是,在無(wú)監(jiān)督算法和有監(jiān)督算法之間的正確選擇通常是由故障動(dòng)力學(xué)的復(fù)雜性以及一些關(guān)鍵建模挑戰(zhàn)決定。
預(yù)測(cè)性維護(hù)的建模挑戰(zhàn)
為維護(hù)團(tuán)隊(duì)設(shè)計(jì)和運(yùn)作一個(gè)有效的維護(hù)方案需要考慮幾方面因素。在構(gòu)建一個(gè)數(shù)據(jù)驅(qū)動(dòng)的方法時(shí),從建模的角度來(lái)看,會(huì)面臨以下挑戰(zhàn):1)需要幾乎實(shí)時(shí)地分析來(lái)自多個(gè)傳感器的流數(shù)據(jù)。2)生產(chǎn)環(huán)境下的傳感器數(shù)據(jù)是有噪聲的,并且會(huì)在不同的操作制度下發(fā)生變化。3)以足夠的分辨率描述組件的故障模式是至關(guān)重要的。4)提前預(yù)測(cè)故障事件是重要的,以便維修團(tuán)隊(duì)采取行動(dòng)。5)有限數(shù)量的故障標(biāo)簽或停機(jī)事件在選擇正確的建模方法和確定模型的總體性能方面發(fā)揮著作用。6)利益相關(guān)者需要洞察導(dǎo)致故障的關(guān)鍵傳感器的行為。
多流傳感器——對(duì)于任何組件,都要監(jiān)控多個(gè)傳感器,因?yàn)橄嚓P(guān)的故障機(jī)制(模式)通常表現(xiàn)為多變量模式。這意味著模型應(yīng)考慮傳感器之間的相關(guān)性,而不是獨(dú)立對(duì)待它們。當(dāng)考慮到以極高頻率對(duì)傳感器值進(jìn)行采樣這一事實(shí)時(shí),這些相關(guān)性具有挑戰(zhàn)性。例如所用的傳感器數(shù)據(jù)以高頻率(如10ms)進(jìn)行采樣。由于模型是跨多種故障模式構(gòu)建的,這就強(qiáng)調(diào)了需要一個(gè)可擴(kuò)展的系統(tǒng)來(lái)訓(xùn)練和部署這些模型。
生產(chǎn)過(guò)程中的傳感器行為——鋼廠的生產(chǎn)過(guò)程需要每天多批次生產(chǎn)。因此,傳感器的時(shí)間序列讀數(shù)基本上是不穩(wěn)定的,在運(yùn)行期間可能會(huì)有很大變化。因此,操作環(huán)境,包括但不限于設(shè)定值、熱/產(chǎn)品特性和其他操作變量,需要與傳感器數(shù)據(jù)一起編碼。
故障模式表征——組件可能通過(guò)多種機(jī)制或故障模式發(fā)生故障。對(duì)組件的運(yùn)行至關(guān)重要的故障模式進(jìn)行優(yōu)先級(jí)劃分是很重要的。如前所述,通過(guò)理解如何根據(jù)傳感器數(shù)據(jù)描述故障的發(fā)生,有助于實(shí)現(xiàn)這一點(diǎn)。這確保了一個(gè)組件和跨組件的故障模式標(biāo)記的一致性。
故障事件和故障數(shù)量——組件歷史故障記錄了發(fā)生故障時(shí)操作員采取的措施。這些動(dòng)作序列有助于識(shí)別相關(guān)的故障模式和理解故障事件發(fā)生的時(shí)間。這與故障模式表征相結(jié)合,在實(shí)踐中具有重要意義,因?yàn)樗鼤?huì)影響故障標(biāo)簽的準(zhǔn)確性,因?yàn)榭缃M件的故障事件數(shù)量相對(duì)較少。在事件發(fā)生之前(幾小時(shí)/幾天而不是幾分鐘之前)充分地預(yù)測(cè)這些事件是至關(guān)重要的,這樣維護(hù)團(tuán)隊(duì)就可以根據(jù)預(yù)測(cè)主動(dòng)采取行動(dòng)。
模型可解釋性——在模型訓(xùn)練階段,系統(tǒng)從導(dǎo)致過(guò)去故障事件的傳感器行為中學(xué)習(xí)。在近乎實(shí)時(shí)的推斷階段(實(shí)時(shí)運(yùn)行)中,它預(yù)測(cè)是否有任何異常模式發(fā)生,以及故障事件發(fā)生的預(yù)期時(shí)間。為了讓維護(hù)團(tuán)隊(duì)對(duì)這些早期警告采取行動(dòng),識(shí)別并與他們共享與預(yù)測(cè)故障事件相關(guān)的關(guān)鍵傳感器是很重要的。這有助于他們更好地理解系統(tǒng)輸出并建立信任。
智能設(shè)備運(yùn)行狀況應(yīng)用程序
考慮到上一節(jié)中描述的挑戰(zhàn),并考慮到需要監(jiān)控的大量設(shè)備,本文采用了一種系統(tǒng)化的方法來(lái)構(gòu)建和部署模型。將模型構(gòu)建過(guò)程分解為數(shù)據(jù)預(yù)處理、特征生成、模型開(kāi)發(fā)等幾個(gè)步驟,如圖1所示。系統(tǒng)架構(gòu)中每個(gè)步驟都可以進(jìn)行設(shè)備配置,并將這些步驟整合到一個(gè)流水線中,用于訓(xùn)練和部署模型。數(shù)據(jù)預(yù)處理步驟從傳感器等級(jí)、噪聲、異常值和物理過(guò)程相對(duì)應(yīng)的特殊情況等方面考慮輸入數(shù)據(jù)的質(zhì)量。特征生成步驟考慮特征構(gòu)造和特征選擇。數(shù)據(jù)預(yù)處理步驟和特征生成步驟都可以處理來(lái)自“生產(chǎn)運(yùn)行期間傳感器行為”的挑戰(zhàn)。模型構(gòu)建步驟包括兩個(gè)階段:第一個(gè)階段涉及到Noodle.ai的異常檢測(cè)模型(FlowOps Sentinel),它能捕獲針對(duì)設(shè)備故障模式的異常產(chǎn)生;第二階段包括Noodle.ai的可能發(fā)生故障的時(shí)間預(yù)測(cè)模型(FlowOps Precog)。該模型可以捕獲不同傳感器之間以及每個(gè)傳感器在不同時(shí)間分辨率下的多變量交互。此外,預(yù)測(cè)模型還可以使用異常檢測(cè)模型的輸出。流水線構(gòu)造還允許選擇能提供最佳性能的模型超級(jí)參數(shù)。
建模結(jié)果案例
第一個(gè)案例是關(guān)于萬(wàn)向軸(解耦)故障的。在連鑄機(jī)內(nèi)部有26個(gè)這樣的組件,每個(gè)組件有20多個(gè)信號(hào)。利用異常檢測(cè)流水線,發(fā)現(xiàn)扭矩信號(hào)相對(duì)于正常運(yùn)行表現(xiàn)出非常高的方差,根據(jù)警示信號(hào)的捕捉以及突出顯示異常行為的時(shí)間序列,維修團(tuán)隊(duì)采取了積極行動(dòng),在事先計(jì)劃的檢測(cè)停止之前,松開(kāi)變速箱并移走輥?zhàn)?,避免了組件故障。在某些情況下,在計(jì)劃停機(jī)前一周出現(xiàn)警告,提前通知維修團(tuán)隊(duì)隨時(shí)準(zhǔn)備更換部件。
第二個(gè)案例是關(guān)于冷卻回路堵塞,可能導(dǎo)致模板熔化并在生產(chǎn)線上造成災(zāi)難性故障。連鑄機(jī)結(jié)晶器有8個(gè)冷卻回路,每個(gè)回路超過(guò)24個(gè)信號(hào)。冷卻回路內(nèi)松動(dòng)的金屬部件可能導(dǎo)致閥門(mén)堵塞。根據(jù)它們的位置,這些松動(dòng)的金屬部件可能會(huì)鎖定在閥桿上,阻止閥門(mén)關(guān)閉。這嚴(yán)重影響了結(jié)晶器的冷卻能力,導(dǎo)致嚴(yán)重的故障。利用異常檢測(cè)流水線 ,可以發(fā)現(xiàn)閥門(mén)位置和流量信號(hào)與正常運(yùn)行的相關(guān)性偏離。根據(jù)捕捉警告的時(shí)間序列,可知這些警告可以進(jìn)一步以狀態(tài)(以不同深淺的顏色編碼)來(lái)表征,其中每個(gè)狀態(tài)捕獲不同的傳感器之間的關(guān)系。維修團(tuán)隊(duì)停機(jī)后檢查冷卻回路,沖洗回路,發(fā)現(xiàn)大量的松散顆粒。通過(guò)主動(dòng)維護(hù),他們避免了災(zāi)難性的事故,能夠快速恢復(fù)作業(yè)。
除了產(chǎn)生異常外,還提供了額外的診斷來(lái)證明異常。包括突出顯示導(dǎo)致異常模式的相關(guān)傳感器以及捕捉這些傳感器間關(guān)系的狀態(tài)。同樣,一個(gè)關(guān)鍵因素被指定為維護(hù)優(yōu)先級(jí)。
一旦系統(tǒng)識(shí)別出異常,它還會(huì)提供組件可能出現(xiàn)故障的預(yù)期持續(xù)時(shí)間。這種預(yù)測(cè)是傳感器模式和異常特征(狀態(tài)、臨界狀態(tài)、持續(xù)時(shí)間等)結(jié)合生成的?;诓僮餍枨?,度量標(biāo)準(zhǔn)(在線和事件后)用于度量這些預(yù)測(cè)對(duì)維護(hù)團(tuán)隊(duì)的有用性和可操作性。在線度量是度量后續(xù)預(yù)測(cè)與先前預(yù)測(cè)的總體偏差,而事件后度量是度量預(yù)測(cè)是否與預(yù)測(cè)視錐一致。萬(wàn)向軸解耦案例中的預(yù)測(cè)周期為一小時(shí)(可按用戶(hù)指定的周期性配置)。
記錄故障標(biāo)簽中要面臨的是噪音問(wèn)題。為了解這種噪音的影響,在NASA公開(kāi)的引擎故障數(shù)據(jù)集中,模擬了故障標(biāo)簽的延時(shí)記錄。隨機(jī)選擇了一個(gè)數(shù)據(jù)集,并將其分為訓(xùn)練組、驗(yàn)證組和測(cè)試組。訓(xùn)練和驗(yàn)證數(shù)據(jù)的規(guī)模被更改,以適應(yīng)只有相關(guān)故障數(shù)據(jù)子集可用的情況。對(duì)于訓(xùn)練和驗(yàn)證數(shù)據(jù),加入了不同數(shù)量的擾動(dòng),而保持事件和事件的值,以解釋未能準(zhǔn)確捕獲故障時(shí)間的原因。為此選擇了兩種設(shè)置:小型和大型,分別為7個(gè)周期和25個(gè)周期的擾動(dòng)。訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)分別用于模型訓(xùn)練和超級(jí)參數(shù)調(diào)整。對(duì)測(cè)試數(shù)據(jù)(20臺(tái)發(fā)動(dòng)機(jī))的預(yù)測(cè)值和實(shí)際值之間的平均絕對(duì)百分比誤差進(jìn)行了計(jì)算,它不受這里描述的場(chǎng)景的影響。表1顯示了試驗(yàn)結(jié)果。觀察到,對(duì)于有限數(shù)量的故障標(biāo)簽數(shù)據(jù),記錄故障時(shí)噪聲的增加導(dǎo)致了更高的預(yù)測(cè)誤差。為獲得可接受的誤差范圍,需要解決這個(gè)問(wèn)題。
機(jī)器學(xué)習(xí)可以指導(dǎo)鋼鐵制造過(guò)程中多種故障模式下的維修操作。由于多流傳感器、噪聲數(shù)據(jù)和多種操作模式,為現(xiàn)場(chǎng)生產(chǎn)運(yùn)行構(gòu)建可擴(kuò)展的系統(tǒng)具有挑戰(zhàn)性。本文介紹了一個(gè)解決這些挑戰(zhàn)的系統(tǒng),通過(guò)在無(wú)監(jiān)督的方式下學(xué)習(xí)多變量傳感器中的相關(guān)性,以產(chǎn)生早期預(yù)警。系統(tǒng)學(xué)習(xí)與時(shí)間有關(guān)的降級(jí)模式,以預(yù)測(cè)下一次故障的可能發(fā)生時(shí)間。與故障模型相關(guān)的模式通過(guò)計(jì)算傳感器所起的作用來(lái)實(shí)現(xiàn)。本文還討論了在鋼廠實(shí)際實(shí)施的結(jié)果,以及如何通過(guò)主動(dòng)指導(dǎo)來(lái)協(xié)助執(zhí)行維護(hù)計(jì)劃。應(yīng)該再次強(qiáng)調(diào)的是,故障標(biāo)簽的質(zhì)量對(duì)這些模型是極其重要的。一個(gè)關(guān)鍵的焦點(diǎn)是圍繞捕獲、記錄和將故障事件歸因到各自的組件來(lái)改進(jìn)當(dāng)前的流程。