近日,首鋼礦業(yè)計(jì)控檢驗(yàn)中心成功搭建了網(wǎng)絡(luò)設(shè)備監(jiān)控平臺(tái),實(shí)現(xiàn)了對(duì)首鋼礦區(qū)網(wǎng)絡(luò)設(shè)備運(yùn)行狀態(tài)的實(shí)時(shí)監(jiān)控,推動(dòng)公司計(jì)算機(jī)網(wǎng)絡(luò)運(yùn)維管理由人工運(yùn)維向智能運(yùn)維轉(zhuǎn)變。
首鋼礦業(yè)中心機(jī)房肩負(fù)著百里礦區(qū)的網(wǎng)絡(luò)通信責(zé)任,現(xiàn)有核心交換機(jī)、云平臺(tái)、網(wǎng)絡(luò)安全設(shè)備、ERP(企業(yè)資源計(jì)劃)服務(wù)器等網(wǎng)絡(luò)設(shè)備160余套。其中,云平臺(tái)云服務(wù)器包含云服務(wù)器操作信息、運(yùn)行情況等日志信息,每天信息增長(zhǎng)量高達(dá)500MB(兆字節(jié)),相當(dāng)于500多萬行數(shù)據(jù)信息,數(shù)量大、種類多、運(yùn)維難度非常高。
傳統(tǒng)運(yùn)維方式中,運(yùn)維人員無法做到全面巡檢,多數(shù)情況只能出現(xiàn)故障了再處理。處理故障時(shí),必須現(xiàn)場(chǎng)檢查設(shè)備運(yùn)行狀態(tài),逐一分析CPU(中央處理器)、內(nèi)存、端口等數(shù)據(jù)指標(biāo),憑借經(jīng)驗(yàn)進(jìn)行故障原因判斷,不僅工作效率低,而且由于無法對(duì)潛在故障進(jìn)行預(yù)警,一旦發(fā)生重大故障,將影響公司整體網(wǎng)絡(luò)與運(yùn)營(yíng),甚至導(dǎo)致系統(tǒng)癱瘓。
“花錢購(gòu)買”比拼“開源技術(shù)”
近幾年,隨著首鋼礦業(yè)智能化發(fā)展,網(wǎng)絡(luò)設(shè)備數(shù)量不斷增多,信息系統(tǒng)變得越來越復(fù)雜,系統(tǒng)的日志數(shù)據(jù)翻倍增加,運(yùn)維難度持續(xù)增加。傳統(tǒng)的人工運(yùn)維已不能滿足管理需求,急需通過技術(shù)手段對(duì)網(wǎng)絡(luò)設(shè)備進(jìn)行7×24小時(shí)智能監(jiān)控。
經(jīng)考察調(diào)研,社會(huì)市場(chǎng)層面有很多成熟的監(jiān)控解決方案,能快速部署實(shí)施,但價(jià)格昂貴、靈活性低,而且后期增加網(wǎng)絡(luò)設(shè)備時(shí),需要廠家配合,可拓展性差。本著“一切費(fèi)用皆可降”的理念,首鋼礦業(yè)計(jì)控檢驗(yàn)中心信息安全創(chuàng)新工作室(下稱工作室)結(jié)合公司實(shí)際情況,決定自主研究搭建網(wǎng)絡(luò)設(shè)備運(yùn)行狀態(tài)實(shí)時(shí)監(jiān)控平臺(tái),嘗試采用開源技術(shù),實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)設(shè)備運(yùn)行狀態(tài)的統(tǒng)計(jì)監(jiān)控及實(shí)時(shí)分析。
綜合考評(píng)多項(xiàng)技術(shù)選最佳
行業(yè)內(nèi)常用的開源技術(shù)有Nagios、Centreon、Cacti、Ganglia、Zabbix等。考慮到每項(xiàng)技術(shù)的適用場(chǎng)景不同,為了選定符合礦山需求的技術(shù),工作室成員李同同對(duì)每一項(xiàng)開源技術(shù)的部署方案、關(guān)鍵技術(shù)、模擬測(cè)試等進(jìn)行試驗(yàn)。其中,模擬測(cè)試環(huán)節(jié)最耗時(shí)間和精力,從搭建虛擬場(chǎng)景開始,需要技術(shù)版本選型下載、環(huán)境匹配、安裝部署、連通設(shè)備、創(chuàng)建模板、功能配置、模擬監(jiān)控等16個(gè)大步驟,每一步都需要設(shè)定不同參數(shù),任何參數(shù)設(shè)定不合適都無法進(jìn)行下一步測(cè)試,更別說完成整體試驗(yàn)。
經(jīng)過反復(fù)測(cè)試并深入對(duì)比,李同同發(fā)現(xiàn),Nagios功能單一、需要額外安裝大量插件,Centreon不易更改配置、可定制性差,Cacti只適合特定場(chǎng)景,Ganglia無告警機(jī)制,這些開源技術(shù)雖然應(yīng)用簡(jiǎn)單,但無法滿足公司管理需要。考慮到首鋼礦業(yè)的長(zhǎng)遠(yuǎn)發(fā)展,工作室決定采用具有圖形化監(jiān)控和報(bào)警功能的Zabbix技術(shù)。該技術(shù)功能強(qiáng)大,但是部署起來較為復(fù)雜,需要進(jìn)一步研究和攻關(guān)。
著眼長(zhǎng)遠(yuǎn)攻關(guān)不怕難
目前,首鋼礦業(yè)網(wǎng)絡(luò)設(shè)備不僅數(shù)量多,而且種類和品牌多樣化,所以在監(jiān)控平臺(tái)搭建過程中必須綜合考慮各種影響因素,比如不同類型的操作系統(tǒng)、Web服務(wù)、編程語言、數(shù)據(jù)庫等。
對(duì)于常規(guī)的Windows操作系統(tǒng),建立監(jiān)控平臺(tái)與被監(jiān)控端的連接,只需打開自帶的SNMP(簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議)服務(wù)即可。但是公司服務(wù)器還有一部分Linux操作系統(tǒng),沒有該服務(wù)選項(xiàng),因而只能通過執(zhí)行程序命令的方式來實(shí)現(xiàn),這對(duì)李同同而言是一項(xiàng)新的技術(shù)突破。他從查閱各類資料入手,在測(cè)試機(jī)開展性能測(cè)試,設(shè)置參數(shù)、分析報(bào)錯(cuò)、修改程序,通過百余次的重復(fù)操作,終于實(shí)現(xiàn)了平臺(tái)與被監(jiān)控端的穩(wěn)定連接。但這只是平臺(tái)部署最初步的技術(shù)驗(yàn)證,為了更好地梳理160余臺(tái)網(wǎng)絡(luò)設(shè)備信息,李同同將其分為交換機(jī)、服務(wù)器、數(shù)據(jù)庫、應(yīng)用等幾大類,并有針對(duì)性地創(chuàng)建適合的監(jiān)控模板,因品牌、連通方式等差異,單交換機(jī)監(jiān)控模板就多達(dá)25項(xiàng),這意味著所有的部署工作都要重復(fù)25次。李同同說:“不怕重復(fù),但任何一個(gè)參數(shù)的不適合,都會(huì)導(dǎo)致‘從頭再來’?!泵鎸?duì)復(fù)雜的部署環(huán)境,李同同一項(xiàng)項(xiàng)地測(cè)試,最終成功搭建了監(jiān)控平臺(tái),實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)設(shè)備CPU溫度和占用率、內(nèi)存使用率、風(fēng)扇狀況、端口狀態(tài)、訪問流量、響應(yīng)時(shí)間等信息的實(shí)時(shí)展示,并通過對(duì)以上大數(shù)據(jù)的分析,提高了對(duì)網(wǎng)絡(luò)設(shè)備運(yùn)行風(fēng)險(xiǎn)的識(shí)別能力,達(dá)到了對(duì)潛在故障智能預(yù)警和及時(shí)定位故障的目的。
網(wǎng)絡(luò)設(shè)備實(shí)時(shí)監(jiān)控平臺(tái)上線以來,運(yùn)行穩(wěn)定、精準(zhǔn)度高、預(yù)警性強(qiáng),實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)設(shè)備的可視化監(jiān)控和管理。下一步,該工作室將繼續(xù)拓展Zabbix技術(shù)應(yīng)用的廣度和深度,為網(wǎng)絡(luò)、信息系統(tǒng)安全穩(wěn)定運(yùn)行保駕護(hù)航,努力推動(dòng)首鋼礦業(yè)計(jì)算機(jī)網(wǎng)絡(luò)運(yùn)維邁進(jìn)智能化時(shí)代。