近日,首鋼礦業(yè)計控檢驗中心成功搭建了網(wǎng)絡(luò)設(shè)備監(jiān)控平臺,實現(xiàn)了對首鋼礦區(qū)網(wǎng)絡(luò)設(shè)備運(yùn)行狀態(tài)的實時監(jiān)控,推動公司計算機(jī)網(wǎng)絡(luò)運(yùn)維管理由人工運(yùn)維向智能運(yùn)維轉(zhuǎn)變。
首鋼礦業(yè)中心機(jī)房肩負(fù)著百里礦區(qū)的網(wǎng)絡(luò)通信責(zé)任,現(xiàn)有核心交換機(jī)、云平臺、網(wǎng)絡(luò)安全設(shè)備、ERP(企業(yè)資源計劃)服務(wù)器等網(wǎng)絡(luò)設(shè)備160余套。其中,云平臺云服務(wù)器包含云服務(wù)器操作信息、運(yùn)行情況等日志信息,每天信息增長量高達(dá)500MB(兆字節(jié)),相當(dāng)于500多萬行數(shù)據(jù)信息,數(shù)量大、種類多、運(yùn)維難度非常高。
傳統(tǒng)運(yùn)維方式中,運(yùn)維人員無法做到全面巡檢,多數(shù)情況只能出現(xiàn)故障了再處理。處理故障時,必須現(xiàn)場檢查設(shè)備運(yùn)行狀態(tài),逐一分析CPU(中央處理器)、內(nèi)存、端口等數(shù)據(jù)指標(biāo),憑借經(jīng)驗進(jìn)行故障原因判斷,不僅工作效率低,而且由于無法對潛在故障進(jìn)行預(yù)警,一旦發(fā)生重大故障,將影響公司整體網(wǎng)絡(luò)與運(yùn)營,甚至導(dǎo)致系統(tǒng)癱瘓。
“花錢購買”比拼“開源技術(shù)”
近幾年,隨著首鋼礦業(yè)智能化發(fā)展,網(wǎng)絡(luò)設(shè)備數(shù)量不斷增多,信息系統(tǒng)變得越來越復(fù)雜,系統(tǒng)的日志數(shù)據(jù)翻倍增加,運(yùn)維難度持續(xù)增加。傳統(tǒng)的人工運(yùn)維已不能滿足管理需求,急需通過技術(shù)手段對網(wǎng)絡(luò)設(shè)備進(jìn)行7×24小時智能監(jiān)控。
經(jīng)考察調(diào)研,社會市場層面有很多成熟的監(jiān)控解決方案,能快速部署實施,但價格昂貴、靈活性低,而且后期增加網(wǎng)絡(luò)設(shè)備時,需要廠家配合,可拓展性差。本著“一切費(fèi)用皆可降”的理念,首鋼礦業(yè)計控檢驗中心信息安全創(chuàng)新工作室(下稱工作室)結(jié)合公司實際情況,決定自主研究搭建網(wǎng)絡(luò)設(shè)備運(yùn)行狀態(tài)實時監(jiān)控平臺,嘗試采用開源技術(shù),實現(xiàn)對網(wǎng)絡(luò)設(shè)備運(yùn)行狀態(tài)的統(tǒng)計監(jiān)控及實時分析。
綜合考評多項技術(shù)選最佳
行業(yè)內(nèi)常用的開源技術(shù)有Nagios、Centreon、Cacti、Ganglia、Zabbix等。考慮到每項技術(shù)的適用場景不同,為了選定符合礦山需求的技術(shù),工作室成員李同同對每一項開源技術(shù)的部署方案、關(guān)鍵技術(shù)、模擬測試等進(jìn)行試驗。其中,模擬測試環(huán)節(jié)最耗時間和精力,從搭建虛擬場景開始,需要技術(shù)版本選型下載、環(huán)境匹配、安裝部署、連通設(shè)備、創(chuàng)建模板、功能配置、模擬監(jiān)控等16個大步驟,每一步都需要設(shè)定不同參數(shù),任何參數(shù)設(shè)定不合適都無法進(jìn)行下一步測試,更別說完成整體試驗。
經(jīng)過反復(fù)測試并深入對比,李同同發(fā)現(xiàn),Nagios功能單一、需要額外安裝大量插件,Centreon不易更改配置、可定制性差,Cacti只適合特定場景,Ganglia無告警機(jī)制,這些開源技術(shù)雖然應(yīng)用簡單,但無法滿足公司管理需要??紤]到首鋼礦業(yè)的長遠(yuǎn)發(fā)展,工作室決定采用具有圖形化監(jiān)控和報警功能的Zabbix技術(shù)。該技術(shù)功能強(qiáng)大,但是部署起來較為復(fù)雜,需要進(jìn)一步研究和攻關(guān)。
著眼長遠(yuǎn)攻關(guān)不怕難
目前,首鋼礦業(yè)網(wǎng)絡(luò)設(shè)備不僅數(shù)量多,而且種類和品牌多樣化,所以在監(jiān)控平臺搭建過程中必須綜合考慮各種影響因素,比如不同類型的操作系統(tǒng)、Web服務(wù)、編程語言、數(shù)據(jù)庫等。
對于常規(guī)的Windows操作系統(tǒng),建立監(jiān)控平臺與被監(jiān)控端的連接,只需打開自帶的SNMP(簡單網(wǎng)絡(luò)管理協(xié)議)服務(wù)即可。但是公司服務(wù)器還有一部分Linux操作系統(tǒng),沒有該服務(wù)選項,因而只能通過執(zhí)行程序命令的方式來實現(xiàn),這對李同同而言是一項新的技術(shù)突破。他從查閱各類資料入手,在測試機(jī)開展性能測試,設(shè)置參數(shù)、分析報錯、修改程序,通過百余次的重復(fù)操作,終于實現(xiàn)了平臺與被監(jiān)控端的穩(wěn)定連接。但這只是平臺部署最初步的技術(shù)驗證,為了更好地梳理160余臺網(wǎng)絡(luò)設(shè)備信息,李同同將其分為交換機(jī)、服務(wù)器、數(shù)據(jù)庫、應(yīng)用等幾大類,并有針對性地創(chuàng)建適合的監(jiān)控模板,因品牌、連通方式等差異,單交換機(jī)監(jiān)控模板就多達(dá)25項,這意味著所有的部署工作都要重復(fù)25次。李同同說:“不怕重復(fù),但任何一個參數(shù)的不適合,都會導(dǎo)致‘從頭再來’。”面對復(fù)雜的部署環(huán)境,李同同一項項地測試,最終成功搭建了監(jiān)控平臺,實現(xiàn)了對網(wǎng)絡(luò)設(shè)備CPU溫度和占用率、內(nèi)存使用率、風(fēng)扇狀況、端口狀態(tài)、訪問流量、響應(yīng)時間等信息的實時展示,并通過對以上大數(shù)據(jù)的分析,提高了對網(wǎng)絡(luò)設(shè)備運(yùn)行風(fēng)險的識別能力,達(dá)到了對潛在故障智能預(yù)警和及時定位故障的目的。
網(wǎng)絡(luò)設(shè)備實時監(jiān)控平臺上線以來,運(yùn)行穩(wěn)定、精準(zhǔn)度高、預(yù)警性強(qiáng),實現(xiàn)了對網(wǎng)絡(luò)設(shè)備的可視化監(jiān)控和管理。下一步,該工作室將繼續(xù)拓展Zabbix技術(shù)應(yīng)用的廣度和深度,為網(wǎng)絡(luò)、信息系統(tǒng)安全穩(wěn)定運(yùn)行保駕護(hù)航,努力推動首鋼礦業(yè)計算機(jī)網(wǎng)絡(luò)運(yùn)維邁進(jìn)智能化時代。