序言 “狼來了”
"叮咚!CPU使用率超過90%!"
"叮咚!內(nèi)存占用達(dá)到80%!"
"叮咚!連接池資源空閑數(shù)低于5%!"
凌晨3點,我們的老演員,運維工程師小李,再次被釘釘機(jī)器人中監(jiān)控的Prometheus的告警吵醒,他盯著手機(jī)屏幕,眼神呆滯,本著“小心駛得萬年船,不可讓一個故障漏網(wǎng)”的原則,他還是艱難地對抗了睡意,把所有系統(tǒng)健康指標(biāo)進(jìn)行逐一排查,如期所料,又是一起誤報。
“悠悠蒼天,何薄于我?這玩意監(jiān)控了個寂寞呀。”
告警對于廣大運維人員來說,真的是又愛又恨,不用長時間監(jiān)控系統(tǒng)有異常之后通知運維人員,極大的節(jié)省了時間,但隨著設(shè)備規(guī)模的大量增加,原本較少誤報突然呈現(xiàn)了爆炸式的增長,從而使得“狼來了”式的告警逐漸降低了運維人員的警惕閾值,從而使得正真的故障狼來了之時,運維人員可能還蒙在鼓里,毫無反應(yīng)。
AI時代,是否有更好的解決方案?熱烈歡迎本場的主角“AI智能體”上線。
AI智能體,通常是指能夠感知環(huán)境、自主決策并執(zhí)行動作以實現(xiàn)特定目標(biāo)的一類人工智能系統(tǒng)。該系統(tǒng)結(jié)合了感知、推理、學(xué)習(xí)和行動能力,可以獨立或在人工協(xié)同指導(dǎo)下完成任務(wù)。
那么如何通過構(gòu)建AI智能體來處理Prometheus的告警呢?基本可以遵循如下的功能模塊來處置。
▍一、感知模塊
負(fù)責(zé)接收和處理來自環(huán)境的各類信息,為后續(xù)決策提供所需的數(shù)據(jù)支持。該部分的準(zhǔn)確性和敏感度會直接影響到后續(xù)的處理。常見的感知模塊一般可以使用如下方式:
文本感知:NLP模型(BERT/GPT)
圖像感知:CV模型(YOLO/ResNet)
語音感知:ASR系統(tǒng)
▍二、認(rèn)知引擎
負(fù)責(zé)記錄相關(guān)故障處置的上下文信息及對應(yīng)處置經(jīng)驗。按照信息存活時間及相關(guān)信息的固化特征可以分為:
短期記憶:對話上下文管理(LSTM/Transformer)
長期記憶:一般使用知識圖譜、向量數(shù)據(jù)庫
在構(gòu)建對應(yīng)的認(rèn)知記憶過程需要遵循嚴(yán)格的標(biāo)準(zhǔn),比如在AI智能體在處理Prometheus告警時,需要考慮如下的因素:
歷史性:異常指標(biāo)是否在相同周期內(nèi)出現(xiàn)
全局性:異常指標(biāo)在集群架構(gòu)下影響力
價值性:何種嚴(yán)重程度需要提示為告警,把小李從床上拉起來
基礎(chǔ)信息:持續(xù)時間、嚴(yán)重程度
關(guān)聯(lián)關(guān)系:服務(wù)組來源信息
同時對于告警的處置結(jié)果執(zhí)行方式也分為三個星級:
一星告警:"嗯。"(記錄日志完事)
二星告警:"嗯?"(發(fā)個Slack消息)
三星告警:"啊!"(打電話+發(fā)短信+在辦公室拉防空警報)
▍三、決策中心
該模塊通過綜合考慮各種因素,運用邏輯推理和概率統(tǒng)計等方法,做出最優(yōu)決策。在大模型逐漸成熟的當(dāng)下,該部分主要由各大模型來扮演,如DeepSeek、GPT等,相關(guān)介紹材料很多,在此不再贅述。
▍四、執(zhí)行模塊
依據(jù)決策中心提供的處理意見完成對應(yīng)處理工作,設(shè)計的核心是完成與相關(guān)業(yè)務(wù)系統(tǒng)的交互與聯(lián)動,通常可以通過如下方式完成:
API調(diào)用:OpenAPI規(guī)范封裝
RPA操作:Playwright/Airflow集成
執(zhí)行模塊是最終呈現(xiàn)處置的關(guān)鍵部分,最終來衡量AI智能體在過程中非人工介入程度,與工具的對接的豐富度及耦合度決定了執(zhí)行的準(zhǔn)確性。
▍五、反饋系統(tǒng)
實現(xiàn)系統(tǒng)的持續(xù)自我優(yōu)化,通過計算關(guān)鍵指標(biāo)(如任務(wù)完成率、耗時)來進(jìn)行效果評估。常見的模型更新:
在線學(xué)習(xí):Bandit算法實時調(diào)整策略
離線訓(xùn)練:每周全量數(shù)據(jù)retraining
終章 “不看廣告,看療效”
▍第一回合:CPU使用率告警
Prometheus:"報!CPU沖到95%了!"
AI:"淡定,這是每日報表生成時間,你家CPU在996呢"
結(jié)果:標(biāo)記為"預(yù)期波動",Slack發(fā)個已處理消息
▍第二回合:磁盤空間不足
Prometheus:"急急急!/var只剩5%了!"
AI:"(查看歷史記錄)發(fā)現(xiàn)這個分區(qū)每周三都會這樣...等等,日志輪轉(zhuǎn)腳本又睡懶覺了?"
結(jié)果:自動觸發(fā)日志清理腳本,并在Jira創(chuàng)建工單:"日志輪轉(zhuǎn)腳本又雙叒叕偷懶了"
▍第三回合:數(shù)據(jù)庫連接池耗盡
Prometheus:"藥丸!連接池100%了!"
AI:"(0.1秒內(nèi)掃描全鏈路)前端流量激增→促銷活動忘了限流→這不是故障,這是KPI在發(fā)光啊!"
結(jié)果:自動擴(kuò)容數(shù)據(jù)庫實例+@市場部:"親,下次搞活動記得提前說哦~"
寫在最后:AI不是終點,而是起點
記住:
再智能的AI也干不過寫bug的程序員
再精準(zhǔn)的過濾也擋不住老板的突發(fā)奇想
最好的監(jiān)控系統(tǒng)也永遠(yuǎn)有一個會罵“這什么破AI”的幕后運維小李
在完成該文章的過程中,消耗了作者4杯咖啡和12次對Prometheus的告警的親切問候。
審核編輯 黃宇
-
cpu
+關(guān)注
關(guān)注
68文章
11051瀏覽量
216207 -
AI
+關(guān)注
關(guān)注
88文章
34488瀏覽量
275922 -
智能體
+關(guān)注
關(guān)注
1文章
278瀏覽量
10986
發(fā)布評論請先 登錄
CFCF2025光連接大會——武漢昊衡科技OLI光纖微裂紋檢測儀,守護(hù)光纖網(wǎng)絡(luò)的"安全衛(wèi)士"

人形機(jī)器人為什么要定制? ——揭秘工業(yè)場景的&quot;千面需求&quot;

倉儲界的&quot;速效救心丸&quot;,Ethercat轉(zhuǎn)PROFINET網(wǎng)關(guān)實戰(zhàn)案例

電纜局部放電在線監(jiān)測:守護(hù)電網(wǎng)安全的&amp;quot;黑科技&amp;quot;

煉油廠開閉所局放監(jiān)測:為能源樞紐裝上&amp;quot;智能安全閥&amp;quot;

隧道管廊變壓器局放在線監(jiān)測:為地下&amp;quot;電力心臟&amp;quot;裝上智能聽診器

新品情報局 | 自來水廠都在搶的&amp;quot;水質(zhì)CT機(jī)&amp;quot;——凱米斯FUV-408如何用一道光省下百萬運維費?

【硬核測評】凌華DAQE雙雄爭霸:工業(yè)數(shù)據(jù)采集界的&amp;quot;速度與激情&amp;quot;實戰(zhàn)解析

傳統(tǒng)產(chǎn)線VS智能工控:華頡科技如何用模塊化設(shè)計撕掉&amp;quot;電老虎&amp;quot;標(biāo)簽?

&quot;看不見的運維&quot;才是真智能!物聯(lián)技術(shù)讓光伏電站自己&quot;看病&quot;

力合微電子攜手中山古鎮(zhèn)政府開啟&amp;quot;智光互聯(lián)&amp;quot;新紀(jì)元 共筑全球智能照明產(chǎn)業(yè)高地

創(chuàng)新驅(qū)動未來:大為錫膏為高精尖散熱器技術(shù)注入&amp;quot;強(qiáng)芯&amp;quot;動力

OCTC發(fā)布&quot;算力工廠&quot;!力促智算中心高效規(guī)劃建設(shè)投運

軟通動力攜手華為啟動&quot;智鏈險界&quot;計劃,強(qiáng)化生態(tài)鏈接共啟保險AI新時代

全方位精準(zhǔn)測量技術(shù)助力:中國經(jīng)濟(jì)加力發(fā)展向前&amp;quot;進(jìn)&amp;quot;

評論