本文來自“數(shù)據(jù)中心服務(wù)器智能故障診斷系統(tǒng)”,從云和數(shù)據(jù)中心的發(fā)展趨勢(shì)、產(chǎn)業(yè)互聯(lián)網(wǎng)時(shí)代的智能化運(yùn)營需求和TIFDS故障診斷系統(tǒng)進(jìn)行分析。
隨著云技術(shù)的普及,尤其是“新基建”,“數(shù)字化轉(zhuǎn)型”等需求驅(qū)動(dòng)著數(shù)字經(jīng)濟(jì)的高速發(fā)展,服務(wù)器在CDC數(shù)據(jù)中心的部署規(guī)模也呈指數(shù)級(jí)增長(zhǎng)。隨之而來的運(yùn)維管理復(fù)雜度和難度也越來越大,而傳統(tǒng)的海量服務(wù)器數(shù)據(jù)中心的故障運(yùn)營也面臨著更大的挑戰(zhàn)和更高昂的成本,從最初的腳本運(yùn)維、工具運(yùn)維到平臺(tái)運(yùn)維演進(jìn)至今,人力已接近極限,越來越無法滿足快速修復(fù)故障和恢復(fù)業(yè)務(wù)運(yùn)行的要求。
大規(guī)模數(shù)據(jù)中心運(yùn)維存在如下的痛點(diǎn)問題:
1. 機(jī)器故障后,重要的日志信息不全,無法自動(dòng)準(zhǔn)確進(jìn)行故障部件定位;
2. 故障診斷效能較低,服務(wù)器出現(xiàn)問題后主要基于人工分析和經(jīng)驗(yàn)判斷結(jié)果,自動(dòng)化與智能化程度不高。
3. 成本高時(shí)效性差,人工經(jīng)驗(yàn)分析依賴大量運(yùn)維人力投入并導(dǎo)致較長(zhǎng)的運(yùn)維時(shí)間(MTTR),影響業(yè)務(wù)的快速恢復(fù)。
4. 由于診斷結(jié)果的明確化率低,引起二次故障維修比例較高,導(dǎo)致額外數(shù)據(jù)遷移成本和業(yè)務(wù)影響。
TIFDS (Tencent&Inspur Fault Diagnosis System) 故障診斷系統(tǒng)是服務(wù)器健康監(jiān)管技術(shù)及故障預(yù)警診斷技術(shù)的總稱,旨在實(shí)現(xiàn)運(yùn)維工作任務(wù)由人工離線分析向自動(dòng)智能在線識(shí)別的方向發(fā)展,建立一套以帶外BMC為中心的自動(dòng)化故障診斷系統(tǒng),提升服務(wù)器故障預(yù)警能力、故障診斷明確率、以及停機(jī)維護(hù)效率,減少非計(jì)劃停機(jī)時(shí)間,提升服務(wù)器全生命周期的健壯的RAS特性(可靠性,可用性及可維護(hù)性)。
該系統(tǒng)依托騰訊超過100萬臺(tái)服務(wù)器的維護(hù)數(shù)據(jù),深度定制了服務(wù)器事件日志,通過AI技術(shù)對(duì)服務(wù)器運(yùn)營數(shù)據(jù)進(jìn)行實(shí)時(shí)的分析,從而實(shí)現(xiàn)了對(duì)CPU,內(nèi)存、硬盤,PCIe等設(shè)備的自動(dòng)化預(yù)警,將服務(wù)器故障診斷自動(dòng)明確化率提升至95%以上。
宕機(jī)類故障診斷
TIFDS可以覆蓋由于IERR(Internal Error)和非IERR造成的系統(tǒng)宕機(jī)故障,并精準(zhǔn)地定位出故障部件,如CPU,內(nèi)存,主板,PCIe外插卡,存儲(chǔ)等設(shè)備。服務(wù)器運(yùn)行過程中一旦發(fā)生異常,TIFDS系統(tǒng)會(huì)立刻響應(yīng)并準(zhǔn)確診斷出故障的部件,將故障問題原因、故障部件具體位置、部件型號(hào)信息、維修建議等信息及時(shí)上報(bào)至運(yùn)維管理系統(tǒng)。運(yùn)維管理系統(tǒng)可自動(dòng)生成維修工單,運(yùn)維人員根據(jù)維修建議,需要更換部件信息,快捷更換故障部件或者依據(jù)TIFDS指導(dǎo)排除故障,迅速使機(jī)器恢復(fù)健康狀態(tài)。傳統(tǒng)的以小時(shí)計(jì)算維修時(shí)間級(jí)別壓縮至分鐘級(jí)別。極大提升運(yùn)維效率,實(shí)現(xiàn)云業(yè)務(wù)快速恢復(fù)。
非宕機(jī)類故障診斷
TIFDS系統(tǒng)通過BMC實(shí)時(shí)監(jiān)控服務(wù)器系統(tǒng)上遍布各處的電壓、電流、溫度傳感器信息,實(shí)時(shí)監(jiān)控電源、風(fēng)扇、以及各部件的工作狀態(tài)和工作負(fù)荷情況;根據(jù)可在線更新的告警閾值、預(yù)警閾值和故障判定規(guī)則,可實(shí)現(xiàn)對(duì)服務(wù)器中存在風(fēng)險(xiǎn)的位置進(jìn)行故障預(yù)警、故障告警或故障判定,并時(shí)刻上報(bào)智能運(yùn)維系統(tǒng)。
故障預(yù)警與隔離
TIFDS可以對(duì)服務(wù)器內(nèi)所有部件進(jìn)行全生命周期的壽命和運(yùn)行狀態(tài)進(jìn)行跟蹤,通過機(jī)器學(xué)習(xí)的算法對(duì)高風(fēng)險(xiǎn)的部件提前進(jìn)行預(yù)警,降低服務(wù)器在高負(fù)荷運(yùn)行狀態(tài)下的突然失效。另外對(duì)已發(fā)生故障的部件,TIFDS可以按部件類別做出相應(yīng)的隔離措施處理,避免單一非必要部件故障影響整機(jī)系統(tǒng)的運(yùn)行。
TIFDS是騰訊云運(yùn)維監(jiān)控系統(tǒng)中的重要組成部分,是服務(wù)器帶外數(shù)據(jù)的主要來源,在內(nèi)存,CPU,PCIe等部件的故障監(jiān)控,失效預(yù)測(cè),大規(guī)模告警上有極大貢獻(xiàn)。通過定制化的日志自動(dòng)適配騰訊云備件系統(tǒng),給騰訊云健康管理系統(tǒng)增加參考維度,并基于帶內(nèi)帶外日志開發(fā)出線上診斷系統(tǒng),深度的定制化模式和簡(jiǎn)單易用的維護(hù)工具使整個(gè)運(yùn)維系統(tǒng)能更加智能,高效。
編輯:黃飛
-
服務(wù)器
+關(guān)注
關(guān)注
13文章
9784瀏覽量
87867 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
5218瀏覽量
73468
原文標(biāo)題:數(shù)據(jù)中心服務(wù)器智能故障診斷系統(tǒng)
文章出處:【微信號(hào):AI_Architect,微信公眾號(hào):智能計(jì)算芯世界】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
銳捷助互聯(lián)網(wǎng)數(shù)據(jù)中心網(wǎng)絡(luò)自動(dòng)化、可視化運(yùn)維
基于數(shù)據(jù)中心服務(wù)器的新接口測(cè)試設(shè)計(jì)

基于大數(shù)據(jù)的高能效數(shù)據(jù)中心服務(wù)器研究

自動(dòng)化運(yùn)維重要里程碑,騰訊數(shù)據(jù)中心服務(wù)臺(tái)的正式啟用
數(shù)據(jù)中心服務(wù)器接口測(cè)試方案
如何才能提高數(shù)據(jù)中心服務(wù)器的效率

數(shù)據(jù)中心正從云時(shí)代向AI時(shí)代進(jìn)化
傳統(tǒng)香港服務(wù)器數(shù)據(jù)中心正在面臨哪些挑戰(zhàn)
數(shù)據(jù)中心服務(wù)器安全白皮書

數(shù)據(jù)中心服務(wù)器功率一般多大 數(shù)據(jù)中心服務(wù)器操作系統(tǒng)三大類包括
韓國大帶寬服務(wù)器的數(shù)據(jù)中心位置
分布式運(yùn)維管理平臺(tái)解決大型數(shù)據(jù)中心運(yùn)維難題的案例

如何選擇數(shù)據(jù)中心服務(wù)
浪潮信息升級(jí)數(shù)據(jù)中心服務(wù)器故障智能診斷AIOps技術(shù)
愛普生SG2520HHN晶振數(shù)據(jù)中心服務(wù)器的理想解決方案

評(píng)論