11月19日,為期兩天的2021 GOPS全球運維大會完美落幕。大會由高效運維社區(qū)(GreatOPS)和開放運維聯(lián)盟(OOPSA)、RPA時代社區(qū)聯(lián)合主辦,于上海舉行。七牛云受邀出席了此次大會,七牛云運維架構(gòu)師敖文武在會中為大家分享了七牛云關(guān)于AIOps的探索與實踐經(jīng)驗。
2021 GOPS全球運維大會,主要面向運維行業(yè)的中高端技術(shù)人員,目的在于幫助運維人員系統(tǒng)學(xué)習(xí)了解相關(guān)知識體系,讓創(chuàng)新技術(shù)推動社會進步。七牛云成立至今始終堅定不移地推動開發(fā)者生態(tài)的建設(shè)。七牛云團隊運營著數(shù)十個面向開發(fā)者的社群,主張技術(shù)共享并發(fā)起各類技術(shù)傳播的活動,如架構(gòu)師實踐日、Niu Talk 數(shù)據(jù)科學(xué)系列論壇等,在全球開發(fā)者社區(qū)有著深遠的影響力和領(lǐng)導(dǎo)力,對AIOps也進行了探索、實踐與思考,擁有著豐富的行業(yè)經(jīng)驗。
七牛云敖文武分別從 AI 和運維 OPS 的關(guān)系、七牛云內(nèi)部AIOps探索和實踐、七牛云對AIOps的思考與總結(jié)分三個方面進行了講解與分享。敖文武指出,運維在故障處理流程中的各個環(huán)節(jié),如問題發(fā)現(xiàn)、檢測、分析、根因定位和響應(yīng)處理等,其中在整個流程中根因定位分析所占時間長達 60%,嚴重依賴運維專家的知識和經(jīng)驗。而七牛云「PISA」產(chǎn)品,能夠進行梳理數(shù)據(jù)建模分析,構(gòu)建出關(guān)鍵業(yè)務(wù)調(diào)用鏈路,并通過動態(tài)閾值計算,預(yù)測未來服務(wù)分數(shù)等算法能力。實現(xiàn)快速根因定位,有效縮短MTTR 40%,并逐步在運維內(nèi)部落地,進一步優(yōu)化了根因定位分析占時長的問題。
從運維角度,為什么需要 AIOps?
整個故障處理過程中,問題定位所需要的時間占比達到 60%。
在實踐中,MTTK (Mean Time to Know) 環(huán)節(jié)嚴重依賴運維專家的知識和經(jīng)驗,且難以口口相傳,這也從一定程度上影響了實踐的效果與人才的培養(yǎng)。
所以,我們需要一種方法將專家知識和經(jīng)驗沉淀下來,實現(xiàn)更加高效的定位和決策。
七牛云內(nèi)部的探索和實踐
內(nèi)部在 AIOPS 上針對如何快速定位問題上做了一些探索和落地實踐:
系統(tǒng)可觀測性
依托“PISA”智能服務(wù)分析,構(gòu)建系統(tǒng)可觀測性。SRE 專家經(jīng)驗知識沉淀,加速問題定位。
業(yè)務(wù)健康評分
多維度 KPI 指標占比評分計算,主動綜合預(yù)測業(yè)務(wù)健康和趨勢預(yù)測。
告警智能降噪
針對不同告警規(guī)則做指標數(shù)據(jù)分類,降低告警風(fēng)暴,提升告警準確度。
動態(tài)閾值
靜態(tài)指標弊端很多,無法適應(yīng)流量峰值周期,集群規(guī)模一直在變化。靜態(tài)的閾值要么是設(shè)置過低、要么是過高。所以我們采用時序檢測算法、訓(xùn)練指標歷史數(shù)據(jù),有效識別周期性異常波動。
可觀測性核心要素:1、Metrics 指標性統(tǒng)計
度量應(yīng)用某一類信息的正確率、成功率、流量等,這是我們常見的應(yīng)用單個統(tǒng)計聚合。2、Tracing 分布式追蹤
一次請求的范圍,服務(wù)于服務(wù),服務(wù)于組件之間的依賴追蹤。3、Logging 日志記錄
程序在執(zhí)行的過程中間發(fā)生了一些日志,會包含報錯信息、堆棧信息等詳細日志內(nèi)容。
基于七牛云 Pandora 平臺,構(gòu)建智能運維分析工具「PISA」。「PISA」針對企業(yè)在數(shù)字信息化過程中,業(yè)務(wù)系統(tǒng)與 IT 系統(tǒng)割裂,面對IT 人員分析問題難,解決問題耗時長,各類監(jiān)控軟件數(shù)量繁多但無法協(xié)同等問題現(xiàn)狀,需要有效連接企業(yè)的業(yè)務(wù)系統(tǒng)和 IT 系統(tǒng),通過提升整體的可觀測性、實時洞察隱患、快速根因定位、提前預(yù)知故障等手段,才能幫助企業(yè)提高系統(tǒng)穩(wěn)定和減少損失。將傳統(tǒng)的被動式運維變成主動式運營,讓數(shù)據(jù)產(chǎn)生更高價值。
除此之外,在平臺機器學(xué)習(xí)工具包上,還集成了大量的算法、能夠進行管理模型和快速驗證。雖然工程師直接做算法存在門檻,但卻可以參與模型的訓(xùn)練,也能通過不同條件組合進行參數(shù)調(diào)整,特征優(yōu)化以追求更好的效果表達。關(guān)于我們自己的思考和總結(jié)
數(shù)據(jù)維度越全面越好。
所有數(shù)據(jù)標準化越規(guī)范統(tǒng)一越好。
第三,場景(知識)越深入越好。如果本身對運維場景理解不是特別深,不理解場景當(dāng)成產(chǎn)品功能去做的話,只能做出一個完整的產(chǎn)品功能,但很大概率上無法直接落地。因為線上環(huán)境復(fù)雜多元,而且非常依賴運維專家的能力和經(jīng)驗。AIOps 能夠順利落地,一定是在 SRE 或 DevOps 最佳實踐中升華而來。
如何借助AI能力與運維場景進行一個數(shù)據(jù)維度全面、數(shù)據(jù)標準規(guī)范統(tǒng)一、場景知識深入的深度結(jié)合并順利落地實現(xiàn),是七牛云對AIOps的深刻思考與理解。
審核編輯:符乾江
-
AI
+關(guān)注
關(guān)注
88文章
34964瀏覽量
278486 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8500瀏覽量
134486
發(fā)布評論請先 登錄
維信諾2025產(chǎn)業(yè)生態(tài)伙伴大會圓滿落幕
四維圖新亮相2025大灣區(qū)車聯(lián)網(wǎng)大會
智慧城軌新標桿,上海兆越攜重磅方案亮相軌交運維大會

軟通動力閩港數(shù)字經(jīng)濟合作論壇暨A.I3探索大會圓滿落幕
拓維信息榮膺華為云生態(tài)大會2025「突出貢獻獎」,以“AI+鴻蒙”加速行業(yè)智能躍遷

華為云生態(tài)大會之智能駕駛用戶大會 華為云聯(lián)合四維圖新共探車企智能化落地

2025新思科技SNUG全球用戶大會即將開幕
SG 控股集團宣布收購鴻霖全球運輸公司股份,拓展全球供應(yīng)鏈與物流服務(wù)

軟通動力亮相2025全球計算大會
2025德力西電氣全球銷售大會圓滿落幕
Commvault SHIFT全球線上大會圓滿落幕
AI驅(qū)動智慧未來,2024 TUYA全球開發(fā)者大會(中東)圓滿落幕

評論