陽光燦爛的周末大清早,老王在健身房做著力量訓(xùn)練以備戰(zhàn)即將開始的馬拉松,突然間“叮叮叮”連續(xù)的短信音打破了健身房有序的節(jié)奏,幾十條短信在手機(jī)提示欄出現(xiàn)“【重要告警】數(shù)據(jù)庫連接超時,請聯(lián)系管理員”。老王一拍大腿,心中默念道“系統(tǒng)可能崩得了”。
“Siri,打電話給小李。”“喂,王總啊,周末都不讓人睡個安穩(wěn)覺啊!”“省公司系統(tǒng)連著發(fā)了幾十條數(shù)據(jù)庫超時的告警短信,半個小時后公司見。”
人物注:老王,某安全公司運(yùn)營中心負(fù)責(zé)人。小李,老王得力干將,運(yùn)營技術(shù)達(dá)人。
上篇 :
告警來勢洶洶,AI提供新的可能
在這個數(shù)據(jù)信息爆炸的時代,各個系統(tǒng)產(chǎn)生的日志數(shù)據(jù)就像是一場永無止境的海嘯,每天以驚人的速度增長,如果又剛好遇到系統(tǒng)異常,那這場災(zāi)難瞬間拉升到毀滅級,此刻命令行頁面日志信息也的確如潮水般涌來,仿佛在說:“嘿,處理我啊,看把你能的!”
“問題找到?jīng)]有?有解決方案嗎?怎么恢復(fù)業(yè)務(wù)?”一見面老王對著小李就是奪命三連問。“問題暫時沒找到,方案倒是有,想不想聽?”小李眼角有些狡黠的說到。“快說,啥時候了?”“刪庫跑路”小李笑著說,“既然找不到問題,就把提出問題的數(shù)據(jù)庫干掉,你的告警不就收不到了!”“你小子,這時候還開玩笑,心是真大,KPI不管了?”“別急嘛,我暫時有辦法恢復(fù),不過后面改進(jìn)的話,得讓研發(fā)的兄弟上新手段了”
“啥手段,說話能不能不大喘氣?”
“AI”
“先恢復(fù)業(yè)務(wù),改進(jìn)方案說來聽聽,我之前也有關(guān)注AI,感覺還真能提供些思路。”
“瞧好吧,您呢”。
半個小時后,業(yè)務(wù)恢復(fù),好在故障發(fā)生時間在周末早上,幾乎沒有用戶訪問業(yè)務(wù)。
“來吧,說說你AI大計(jì)”
“故障原因很明確就是數(shù)據(jù)庫連接超時,但是后臺的日志量巨大,不好定位,尤其是這種短時間海量日志的情況,通過人工很難快速分析,就像我這種運(yùn)營老司機(jī)都得看好久,而且現(xiàn)有版本只對異常結(jié)果做了告警但卻沒法對異常做預(yù)警。而日志這種文本類業(yè)務(wù)用AI來處理分析,AI能夠在幾秒鐘內(nèi)分析完數(shù)萬條日志,找出其中的規(guī)律和異常,而我們?nèi)祟惪赡苓€在cat grep第一條日志的內(nèi)容。AI的引入,不僅大大提高了日志處理的效率,而且可以主動對異常分析提供預(yù)警能力,可以讓我們從繁瑣的人工分析中解脫出來,有更多時間去做更有創(chuàng)意的事情。”
“繼續(xù),講干貨。如果方案確實(shí)可行的話,可以給公司建議投入開發(fā)。”老王的眼里閃著光芒,因?yàn)樗耙沧鲞^AI技術(shù)的調(diào)研,或許是個方向。
“好”小李灌了口紅牛,把旁邊的白板拉了過來,幾分鐘后,一個處理流程圖便出現(xiàn)在白板上。
其實(shí),AI處理日志的核心過程可以概括為以下幾個通用的步驟:
1.數(shù)據(jù)收集與預(yù)處理
日志數(shù)據(jù)通常分散在系統(tǒng)不同組件模塊中,首先通過日志采集工具(如Fluentd、Logstash)將數(shù)據(jù)集中到統(tǒng)一日志平臺,這個算是一般的態(tài)勢平臺或者日志審計(jì)平臺的基本功能,現(xiàn)有的技術(shù)方案很成熟,可以直接復(fù)用。
通常而言,收集到日志數(shù)據(jù)根據(jù)格式可以分為結(jié)構(gòu)化和非結(jié)構(gòu)化兩種:
● 結(jié)構(gòu)化日志就像是一位穿著整齊的紳士,每條記錄都有固定的格式和內(nèi)容位置,比如時間戳、日志級別、消息內(nèi)容等。這種日志AI可以輕松地將其拆解和分析。
● 非結(jié)構(gòu)化日志則像是一位隨性的藝術(shù)家,信息雜亂無章,格式依開發(fā)的程序猿風(fēng)格各異。類似的日志處理起來就復(fù)雜多了,這個如果人工處理,那將是一個極其費(fèi)時的事情。
預(yù)處理通常是對日志進(jìn)行清洗和格式化處理,去除噪聲數(shù)據(jù),并將非結(jié)構(gòu)化日志轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)(如JSON或CSV格式)。這一步是后續(xù)所有工作開始的基礎(chǔ),也是后續(xù)AI進(jìn)行推理訓(xùn)練的基礎(chǔ),而海量日志的預(yù)處理過程同樣可以通過AI進(jìn)行處置。
2.分布式存儲與索引
海量日志處理必然需要高效的存儲方案及高效的檢索能力。目前,AI系統(tǒng)通常使用分布式存儲技術(shù)(如Hadoop HDFS、Elasticsearch)來存儲日志數(shù)據(jù),并通過索引技術(shù)(如倒排索引)實(shí)現(xiàn)快速查詢。這使得即使面對TB級的數(shù)據(jù),系統(tǒng)也能在秒級內(nèi)完成檢索。這個技術(shù)也相當(dāng)成熟,同樣可以采用“拿來主義”直接使用。
3.特征提取與模式識別
這一步就是整體AI方案的中最為核心的步驟,從文本描述的日志信息里從日志中來提取關(guān)鍵特征。比如常見手段如下:
● 通過正則表達(dá)式識別錯誤碼、IP地址等固定模式。
● 用NLP技術(shù)(如TF-IDF、BERT)對日志文本進(jìn)行分類(如錯誤、警告、信息)。比如,一條非結(jié)構(gòu)化日志可能是:“【Pid 9527 ERROR】2024-04-01 12:34:56 綜合業(yè)務(wù)系統(tǒng)登錄Failed to connect to database.”需要識別出時間戳、日志級別和錯誤信息,作為日志文本的特征值存儲。
通過聚類算法(如K-means、DBSCAN)將相似的日志歸類,這樣素材就已經(jīng)規(guī)整完畢,具備分析的條件了。
4.異常檢測與預(yù)測
特征值處理之后,通過AI就能夠自動檢測日志中的疑似異常行為。常見的手段包括有:
● 使用孤立森林(Isolation Forest)或局部異常因子(LOF)算法識別異常日志。
● 通過時間序列分析(如ARIMA、Prophet)預(yù)測系統(tǒng)未來的運(yùn)行狀態(tài)(如流量峰值、故障概率)。
● 利用深度學(xué)習(xí)模型(如LSTM)捕捉復(fù)雜的日志模式,實(shí)現(xiàn)更精準(zhǔn)的異常檢測。
5.自動化響應(yīng)與根因分析
發(fā)現(xiàn)疑似的異常問題之后,處置方式可以推送給人工做研判,也可以由AI直接自動依據(jù)策略采取行動。比如說:
● 通過訓(xùn)練之后的AI模型自動觸發(fā)告警、重啟服務(wù)或擴(kuò)容資源(該操作需要和PAAS或SAAS平臺聯(lián)動,一般需要做開發(fā))。
● 使用因果推斷或圖分析技術(shù)定位問題的根本原因,提供疑似方向,幫助運(yùn)維團(tuán)隊(duì)快速解決問題。
6.可視化與報(bào)告生成
當(dāng)然,為了便于運(yùn)維人員更直觀地理解日志數(shù)據(jù),也提供可視化工具(如Kibana、Grafana),將日志數(shù)據(jù)以圖表形式展示,這里的技術(shù)也是很成熟的技術(shù)了。
AI還能自動生成分析報(bào)告,總結(jié)系統(tǒng)運(yùn)行狀況、異常事件和優(yōu)化建議,由于模型是針對具體環(huán)境進(jìn)行了專項(xiàng)調(diào)整,因此,比現(xiàn)有的通用模板生成的報(bào)告效果會更有參考價值,同時也可以節(jié)省報(bào)告編寫的時間。
“王總,怎么說?您覺得這個方法論和對應(yīng)的技術(shù)棧調(diào)研是否可行?”“聽起來有點(diǎn)兒意思,但是這個技術(shù)儲備要求也蠻復(fù)雜的,開發(fā)周期應(yīng)該挺久的吧”“要不,您破費(fèi)下,中午給我安排一頓,我再給您細(xì)細(xì)聊聊。”“嚯,你小子在這兒等我呢”老王笑了點(diǎn)了點(diǎn)頭,“Siri,打電話給南京大排檔。”
待續(xù),下篇精彩繼續(xù)。
審核編輯 黃宇
-
AI
+關(guān)注
關(guān)注
88文章
34600瀏覽量
276360 -
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3905瀏覽量
65899
發(fā)布評論請先 登錄
詳解journalctl日志管理

基于RV1126開發(fā)板限制系統(tǒng)日志大小教程

在線研討會 @4/10 ASTRA?賦能邊緣 AI:探索 Synaptics SL &amp; SR 處理器的無限可能

如何利用AI創(chuàng)造更多無限可能
博世智能傳感器引領(lǐng)智能穿戴設(shè)備無限可能
從DeepSeek爆火看AI與物聯(lián)網(wǎng)融合的無限可能,啟明云端AI硬件方案

解鎖全球網(wǎng)絡(luò):探索海外靜態(tài)IP的無限可能
日志篇:模組日志總體介紹

“智造·芯生無限”Intel AI Summit成功舉行
VSM邂逅人工智能:解鎖效率與智能的無限可能!
智IN共創(chuàng) 境界無限:2024英特爾中國學(xué)術(shù)峰會開幕

鐵威馬教程 如何收集NAS的日志

評論