如(rú)何讓網絡環境的運行狀态更加透明?

發布時(shí)間(jiān):2023-11-07 | 編輯:深圳網站(zhàn)建設公司

如(rú)何在每次業務(wù)故障的時(shí)候自證清白?這(zhè)不僅是基礎服務(wù)團隊要關(guān)心的内容,更是整個(gè)技術團隊想要了(le)解的黑匣子(zǐ)。


對于SRE來(lái)說(shuō),需要監控程序是否正常;對于主機組來(lái)說(shuō),需要監控服務(wù)器(qì)硬件是否正常;對于網絡來(lái)說(shuō),我們首先需要關(guān)心網絡設備是否可達。當一(yī)台TOR不可達時(shí),基本上(shàng)預示着會有一(yī)片服務(wù)器(qì)不可達,業務(wù)的痛感是相當強烈的。


網絡設備的監控最好(hǎo)(hǎo)和業務(wù)監控系統盡量解藕,因為(wèi)網絡故障極有可能(néng)引發業務(wù)系統異常,如(rú)果恰巧導緻的是業務(wù)的監控系統異常,那網絡設備的告警将失去可靠性,且不說(shuō)“監控不準”這(zhè)個(gè)鍋是誰的,這(zhè)種局面會讓網絡工程師Trouble Shooting時(shí)陷入被動,延長了(le)故障時(shí)間(jiān)。


每一(yī)個(gè)網工在走出校(xiào)門的那一(yī)刻,都已經具備基本的編程基礎, 況且交換機的數量和服務(wù)器(qì)的數量有着量級上(shàng)的差别,所以如(rú)果你能(néng)看懂幾句python,100+的python代碼即可搞定一(yī)個(gè)簡易的設備存活監控的程序,Github中可搜索 NodePingManage 就(jiù)是一(yī)個(gè)很好(hǎo)(hǎo)的例子(zǐ),還可以通過多點部署來(lái)消除單點故障。有了(le)這(zhè)類工具, 從此全網的各個(gè)角落的可達性終于明了(le), 漆黑的網絡環境,似乎反射出了(le)一(yī)絲光明。


設備日志監控


設備存活告警雖然可以預警很多異常,并且準确度很高,但(dàn)是對于冗餘性做得比較好(hǎo)(hǎo)的網絡,能(néng)Ping通并不代表完全沒問題,此時(shí),細心的網絡工程師會去看日志,這(zhè)裏可以反映出更多細節。對于萬台服務(wù)器(qì)規模,網絡設備的數量也(yě)就(jiù)千台,但(dàn)是逐台查看日志,人(rén)肉判斷是否有異常,那簡直是場(chǎng)噩夢。


《日志告警》程序就(jiù)成為(wèi)網絡工程師們居家旅行必備之良品,隻需要一(yī)台Syslog服務(wù)器(qì),部署一(yī)個(gè)日志監控程序,當發現(xiàn)日志中出現(xiàn)特殊關(guān)鍵字,觸發郵件+短信告警即可。這(zhè)麽高大上(shàng)的工具當然需要更多的編程技巧,150+ python代碼才能(néng)搞定。Github中類似的解決方法有很多,搜索LogScanWarning即可得到一(yī)個(gè)示範案例。

5

從此你可以在業務(wù)無感的情況下(xià),發現(xiàn)網絡中的異常, 例如(rú):風(fēng)扇轉速異常/電源模塊故障/ospf鄰居狀态抖動/端口flapping/有黑客在爆破我的設備/設備硬件parity error/模塊收發光異常/Kernel報(bào)錯等等。優秀的網絡工程師可以在故障發生(shēng)時(shí)快(kuài)速定位,牛X的網絡工程師可以在故障發生(shēng)前就(jiù)消除隐患,防範于未然。


流量監控


高速公路(lù)鋪得再好(hǎo)(hǎo),也(yě)架不住車多人(rén)多。确保網絡順暢,品質優良,沒有丢包,延時(shí)穩定也(yě)是網絡工程師的職責 ,此時(shí)流量監控就(jiù)成了(le)剛需。


業務(wù)的飛速發展體(tǐ)現(xiàn)在網絡層面就(jiù)是DC内流量上(shàng)漲/DCI流量上(shàng)漲/IDC出口流量上(shàng)漲/專線流量上(shàng)漲,流量監控可以準确掌握業務(wù)的高峰和低(dī)谷,當線路(lù)需要擴容時(shí),帶寬使用率是老闆參考的重要數據。一(yī)般情況下(xià)線路(lù)中的流量超過50%即可發起擴容,因為(wèi)這(zhè)意味着當備份鏈路(lù)down之後,主線路(lù)将出現(xiàn)擁塞。


接口error監控


接口的Error包監控和流量監控一(yī)樣,均可以通過snmp采集,OID:ifOutErrors,ifInErrors , Error包出現(xiàn)增量會直接影響業務(wù)的服務(wù)質量,一(yī)旦發現(xiàn)需要優先處理(lǐ),否則業務(wù)會拎着一(yī)堆TcpTimeOut指标找上(shàng)門來(lái)。


當然,可以通過snmp采集的信息還有很多,例如(rú):設備的CPU/内存/溫度/防火(huǒ)牆的Session等,掌握這(zhè)些(xiē)信息對了(le)解設備的工作(zuò)環境也(yě)頗有益處,如(rú)果你要做一(yī)個(gè)自動化(huà)巡檢工具,那麽這(zhè)些(xiē)指标必不可少。市(shì)面上(shàng)提供網絡監控的軟件有很多,例如(rú):Falcon / Zabbix / Solarwinds / Cacti / Nigos等,有開源的也(yě)有收費的,功能(néng)類似,此處不加贅述。


制造自動化(huà)運維工具


深圳網站(zhàn)建設公司第一(yī)章中的組合拳打完之後,基本上(shàng)不會出現(xiàn)“意料之外的故障”,所有的異常都應該有據可查,當SRE莫名其妙提出對網絡環境的質疑時(shí),你應該早已心中有譜。


版權保護: 本文由深圳網站(zhàn)設計公司發布,轉載請保留鏈接: 如(rú)何讓網絡環境的運行狀态更加透明?
如(rú)有内容侵權,請聯系我們。