作者:京東保險(xiǎn) 鄭飛
前言
在11.11大促中,質(zhì)量保障成為了確保大促順利進(jìn)行的堅(jiān)固防線。其中,測試右移作為一種前瞻性的質(zhì)量策略,正日益彰顯其不可或缺的價(jià)值。而監(jiān)控,作為測試右移戰(zhàn)略中的核心環(huán)節(jié),不僅承擔(dān)著全面、精準(zhǔn)捕捉系統(tǒng)運(yùn)行動(dòng)態(tài)的重任,更需在問題初露端倪時(shí),迅速吹響警報(bào),引領(lǐng)團(tuán)隊(duì)實(shí)施有效干預(yù)。然而,當(dāng)前大部分關(guān)于測試右移中監(jiān)控部分的討論,多聚焦于監(jiān)控技術(shù)的選擇與實(shí)現(xiàn),以及如何構(gòu)建全面的監(jiān)控體系,而對于監(jiān)控告警這一核心功能的深度剖析卻相對較少。
告警,作為監(jiān)控體系中的“哨兵”,其重要性不言而喻。一個(gè)高效、精準(zhǔn)的告警機(jī)制,能夠第一時(shí)間將潛在問題反饋給相關(guān)人員,為快速定位、解決問題贏得寶貴時(shí)間。但現(xiàn)實(shí)中,告警機(jī)制的設(shè)計(jì)與實(shí)施往往面臨著諸多挑戰(zhàn),如告警信息的泛濫、感知度不足、準(zhǔn)確性不高等,這些問題都嚴(yán)重制約了監(jiān)控體系效能的發(fā)揮。
因此,本文特從告警視角出發(fā),探討當(dāng)前監(jiān)控告警機(jī)制存在的問題與挑戰(zhàn),并提出針對性的優(yōu)化與建設(shè)策略。希望通過本文的闡述,能夠?yàn)樽x者在構(gòu)建和優(yōu)化監(jiān)控告警體系時(shí)提供有益的參考與啟示。
一、背景概述與當(dāng)前狀況
在構(gòu)建業(yè)務(wù)監(jiān)控體系的過程中,我們通常采用多元化的告警通知手段,涵蓋郵件、即時(shí)通訊消息等多種形式。當(dāng)前,團(tuán)隊(duì)中大部分業(yè)務(wù)監(jiān)控主要依賴郵件和即時(shí)通訊消息(京ME)作為告警傳遞的兩大渠道。
然而,隨著監(jiān)控范圍的不斷擴(kuò)大和業(yè)務(wù)應(yīng)用場景的日益豐富,現(xiàn)有的報(bào)警通知機(jī)制正面臨一系列嚴(yán)峻挑戰(zhàn)。
二、面臨的主要挑戰(zhàn)
1.報(bào)警感知度不足:單一的報(bào)警模式或當(dāng)前報(bào)警功能的感知能力存在明顯短板。例如,由于每日接收的郵件數(shù)量龐大,郵件通知方式往往容易被忽視;相較于郵件,京me消息通知的感知度雖有所提升,但仍存在遺漏關(guān)鍵報(bào)警信息的風(fēng)險(xiǎn)。
2.報(bào)警信息泛濫:無效或冗余的報(bào)警信息會嚴(yán)重干擾正常報(bào)警的傳遞,增加值班人員的工作負(fù)擔(dān),降低其處理效率。更為嚴(yán)重的是,這些無效信息會將緊急報(bào)警淹沒在海量報(bào)警信息之中,導(dǎo)致關(guān)鍵信息被忽視。
3.報(bào)警不準(zhǔn)確:不合理的閾值設(shè)置可能引發(fā)漏報(bào)或誤報(bào)現(xiàn)象,進(jìn)而對系統(tǒng)的穩(wěn)定性和安全性構(gòu)成潛在威脅。
三、告警中心建設(shè)目標(biāo)
告警中心的建設(shè)旨在全面攻克上述存在的痛點(diǎn)問題,并在此基礎(chǔ)上拓展更為全面且強(qiáng)大的功能體系。以下是該建設(shè)的核心目標(biāo):
1.構(gòu)建統(tǒng)一報(bào)警平臺:旨在提供一個(gè)集成化的報(bào)警通知中心,確保各業(yè)務(wù)監(jiān)控模塊能夠?qū)W⒂谄浜诵墓δ艿膶?shí)現(xiàn),而無需為報(bào)警通知的多樣化與整合性擔(dān)憂。
2.實(shí)現(xiàn)多通道告警:通過集成郵件、即時(shí)通訊、短信等多種報(bào)警通知渠道,構(gòu)建一個(gè)具備多維度告警感知能力的系統(tǒng),確保報(bào)警信息能夠精準(zhǔn)觸達(dá)目標(biāo)接收者。
3.引入優(yōu)先級設(shè)定機(jī)制:為報(bào)警信息提供分級與優(yōu)先級設(shè)定的能力,使接收者能夠迅速識別并優(yōu)先處理高優(yōu)先級報(bào)警,確保緊急問題得到及時(shí)響應(yīng)。
4.實(shí)現(xiàn)自動(dòng)升級與抑制:針對有效報(bào)警項(xiàng),當(dāng)出現(xiàn)嚴(yán)重批量報(bào)警時(shí),系統(tǒng)將自動(dòng)提升其感知能力,確保關(guān)鍵信息不被遺漏;同時(shí),對于冗余或無效報(bào)警,系統(tǒng)將自動(dòng)進(jìn)行降級處理,抑制其通知頻率,避免造成不必要的干擾。
5.實(shí)施報(bào)警合并策略:對于相同類型的報(bào)警信息,系統(tǒng)將進(jìn)行智能合并,以減少報(bào)警數(shù)量。在設(shè)定的時(shí)間窗口內(nèi),將同一監(jiān)控對象的多次報(bào)警合并為一次,提高報(bào)警信息的可讀性和處理效率。
6.打造自適應(yīng)報(bào)警系統(tǒng):依托實(shí)時(shí)數(shù)據(jù)和歷史數(shù)據(jù),結(jié)合先進(jìn)的統(tǒng)計(jì)分布算法,系統(tǒng)將自動(dòng)調(diào)整報(bào)警閾值,以適應(yīng)系統(tǒng)環(huán)境的不斷變化,確保報(bào)警信息的準(zhǔn)確性和有效性。
7.構(gòu)建問題閉環(huán)處理流程:通過與問題處理平臺無縫對接,形成從報(bào)警觸發(fā)到問題解決的完整閉環(huán)流程,確保每一個(gè)報(bào)警都能得到及時(shí)、有效的處理,從而提升系統(tǒng)的穩(wěn)定性和可靠性。
四、技術(shù)設(shè)計(jì)方案
4.1 告警設(shè)置使用原則
?【建議】控制告警數(shù)量,避免引發(fā)“狼來了”效應(yīng)。
?【強(qiáng)制】當(dāng)告警觸發(fā)時(shí),必須附帶明確的操作指南。
?【建議】對于無需人工干預(yù)的告警規(guī)則,建議直接予以移除。
?【強(qiáng)制】告告警信息中必須包含告警級別、影響范圍及應(yīng)對措施等關(guān)鍵信息。
4.2 告警渠道集成策略
告警中心致力于構(gòu)建一個(gè)全面而靈活的報(bào)警感知網(wǎng)絡(luò),集成了多種高效、便捷的告警渠道,包括但不限于:
?郵件通知:利用郵件系統(tǒng)的廣泛覆蓋性和可靠性,確保告警信息能夠準(zhǔn)確無誤地送達(dá)至指定接收者。
?京me消息:依托京me平臺的即時(shí)通訊能力,實(shí)現(xiàn)告警信息的快速傳遞,確保相關(guān)人員能夠第一時(shí)間接收到報(bào)警通知。
?京me群通知:還有另外一種情況,就是負(fù)責(zé)人不能立馬看到告警,針對這種情況我們可以提前準(zhǔn)備告警群,把告警投入小組的群里,這樣群里的其他同學(xué)也能看到告警,幫負(fù)責(zé)人處理告警或者提醒負(fù)責(zé)人處理告警。
?京me日歷提醒:結(jié)合京me日歷的日程管理功能,將告警信息以日程提醒的方式呈現(xiàn),為相關(guān)人員提供更為直觀的告警感知體驗(yàn)。
?電話告警:在緊急情況下,通過電話直接撥打相關(guān)人員手機(jī),確保告警信息能夠以最快速度傳遞至目標(biāo)接收者,實(shí)現(xiàn)即時(shí)響應(yīng)。
4.3 故障等級與告警設(shè)置策略
在故障管理體系中,明確定義故障的等級至關(guān)重要。除了傳統(tǒng)的基于受損PV/UV、收入等維度來劃分故障等級外,故障的持續(xù)時(shí)間同樣是一個(gè)不可忽視的關(guān)鍵指標(biāo)。對于一個(gè)核心服務(wù)而言,故障的持續(xù)時(shí)長將直接影響其最終的影響級別。例如,短時(shí)間的瞬時(shí)故障可能僅造成輕微影響,而長時(shí)間的持續(xù)故障則可能引發(fā)重大業(yè)務(wù)中斷,帶來嚴(yán)重后果。
因此,如何迅速解決故障,實(shí)際上也在一定程度上考驗(yàn)著我們的告警設(shè)置能力。在事故的全生命周期管理中,從發(fā)現(xiàn)到定位,告警都扮演著至關(guān)重要的角色,尤其是故障的初步發(fā)現(xiàn)階段。為了優(yōu)化告警設(shè)置,提升故障處理效率,以下幾點(diǎn)策略可供參考:
?告警分級管理:根據(jù)故障的嚴(yán)重性,將告警劃分為不同的等級,如提示級、預(yù)警級、嚴(yán)重級和災(zāi)難級。這種分級管理有助于相關(guān)人員根據(jù)告警級別快速判斷故障的緊急程度,并采取相應(yīng)的應(yīng)對措施。
?告警原因分類:對告警進(jìn)行細(xì)致的原因分類,如網(wǎng)絡(luò)故障、硬件故障、軟件錯(cuò)誤等,有助于快速定位故障源頭,減少排查時(shí)間。同時(shí),原因分類也為后續(xù)的故障預(yù)防和改進(jìn)提供了有力支持。
?提供解決方案:每條告警信息中應(yīng)包含初步的解決方案或處理建議,以便相關(guān)人員能夠在接收到告警后,迅速采取行動(dòng),遏制故障擴(kuò)散,降低損失。解決方案可以包括緊急操作步驟、備用系統(tǒng)切換方案、聯(lián)系技術(shù)支持人員等。
4.4 告警收斂抑制與自動(dòng)升降級策略
告警中心不僅承擔(dān)著即時(shí)發(fā)送告警信息的重任,還需對告警記錄進(jìn)行精細(xì)化管理和分析。告警中心會保留每一次告警的通知記錄,并根據(jù)后續(xù)的驗(yàn)證結(jié)果,對告警進(jìn)行精準(zhǔn)分類,如有效報(bào)警、無效報(bào)警、偶發(fā)性報(bào)警以及常規(guī)報(bào)警等。
為了提升告警管理的效率和準(zhǔn)確性,告警中心會根據(jù)歷史告警的最終處理結(jié)果,智能識別出冗余或無效的告警。對于這些告警,系統(tǒng)將自動(dòng)采取降級處理措施,有效抑制其通知頻率,從而避免對相關(guān)人員造成不必要的干擾和負(fù)擔(dān)。這種智能收斂抑制機(jī)制,有助于減少無效告警的噪音,讓相關(guān)人員能夠更加專注于處理真正重要的告警。
同時(shí),對于歷史上曾經(jīng)出現(xiàn)過的重要或嚴(yán)重報(bào)警,告警中心在提供正常通知的基礎(chǔ)上,還具備智能升級的能力。例如,當(dāng)某個(gè)告警配置原本使用較為普通的通知方式(如京me通知),但在出現(xiàn)批量惡劣報(bào)警且接收人未能及時(shí)跟進(jìn)處理的情況下,系統(tǒng)會自動(dòng)將該告警升級為更高級別的通知方式,如電話告警(同時(shí)可以支持升級為通知相關(guān)上級人員)。這種智能升級策略,能夠確保在緊急情況下,相關(guān)人員能夠迅速接收到告警信息,并采取相應(yīng)的應(yīng)對措施,從而有效遏制故障的擴(kuò)散和升級。
4.5 告警合并策略
對相同類型的報(bào)警信息進(jìn)行智能識別與合并。在設(shè)定的時(shí)間窗口內(nèi),對于同一監(jiān)控對象觸發(fā)的多次報(bào)警,系統(tǒng)將自動(dòng)進(jìn)行合并處理,將多條相似的告警信息整合為一條綜合告警。這種合并方式不僅顯著減少了報(bào)警數(shù)量,降低了告警信息的冗余度,還使得告警信息更加簡潔明了,易于閱讀和理解。
4.6 自適應(yīng)閾值策略
在監(jiān)控告警領(lǐng)域,閾值設(shè)定一直是一個(gè)棘手的問題。傳統(tǒng)的固定閾值方法,雖然簡單易行,但往往難以兼顧精準(zhǔn)告警與減少誤報(bào)之間的平衡。閾值設(shè)定過于寬泛,可能遺漏真正的故障問題,導(dǎo)致漏報(bào);而設(shè)定過于保守,則可能引發(fā)大量無效誤報(bào),干擾正常工作。更為復(fù)雜的是,隨著業(yè)務(wù)的不斷發(fā)展,監(jiān)控對象的數(shù)據(jù)波動(dòng)也會發(fā)生變化,閾值也需要相應(yīng)地進(jìn)行調(diào)整。
為了解決這一難題,引入了自適應(yīng)閾值策略優(yōu)化方案。該方案的核心在于利用統(tǒng)計(jì)分布學(xué)算法,根據(jù)歷史數(shù)據(jù)走向,動(dòng)態(tài)計(jì)算出合理的告警閾值。具體而言,我們可以采用正態(tài)分布或均勻分布等統(tǒng)計(jì)模型,對歷史監(jiān)控?cái)?shù)據(jù)進(jìn)行擬合和分析,從而得出一個(gè)能夠反映數(shù)據(jù)波動(dòng)特性的動(dòng)態(tài)閾值。
自適應(yīng)閾值策略的優(yōu)勢在于其靈活性和準(zhǔn)確性。由于閾值是根據(jù)歷史數(shù)據(jù)動(dòng)態(tài)計(jì)算得出的,因此能夠隨著業(yè)務(wù)的發(fā)展和數(shù)據(jù)的變化而自動(dòng)調(diào)整,始終保持對監(jiān)控對象的敏感度和準(zhǔn)確性。同時(shí),該策略還能夠有效減少誤報(bào)和漏報(bào)的情況,提高告警信息的可靠性和實(shí)用性。
在實(shí)施自適應(yīng)閾值策略時(shí),我們還需要注意以下幾點(diǎn):
1.數(shù)據(jù)質(zhì)量:確保歷史數(shù)據(jù)的準(zhǔn)確性和完整性,避免數(shù)據(jù)異常對閾值計(jì)算造成干擾。
2.模型選擇:根據(jù)監(jiān)控對象的特性和數(shù)據(jù)分布特點(diǎn),選擇合適的統(tǒng)計(jì)模型進(jìn)行擬合和分析。
3.閾值調(diào)整:定期對自適應(yīng)閾值進(jìn)行驗(yàn)證和調(diào)整,確保其始終符合業(yè)務(wù)需求和運(yùn)維實(shí)際情況。
4.7 告警問題追蹤與閉環(huán)
告警中心通過與問題跟蹤系統(tǒng)的集成,實(shí)現(xiàn)了告警從觸發(fā)到解決的全程跟蹤。當(dāng)告警觸發(fā)時(shí),系統(tǒng)會自動(dòng)將告警信息發(fā)送至問題跟蹤系統(tǒng),并生成相應(yīng)的問題記錄。值班人員可以在問題跟蹤系統(tǒng)中查看告警詳情、處理進(jìn)度和解決方案等信息,確保每一個(gè)告警都能得到及時(shí)、有效的處理。這種告警問題追蹤與閉環(huán)流程,有助于提升系統(tǒng)的穩(wěn)定性和可靠性。
五、優(yōu)秀文獻(xiàn)推薦
關(guān)于線上穩(wěn)定性的構(gòu)建與監(jiān)控報(bào)警機(jī)制的完善,特此推薦以下幾篇卓越的文獻(xiàn)資料:
外部文獻(xiàn)精選:
1.?《vivo 服務(wù)端監(jiān)控體系建設(shè)實(shí)踐》?
2.?《我在服務(wù)監(jiān)控方面的實(shí)踐》?
神燈社區(qū)佳作:
1.?《系統(tǒng)穩(wěn)定性之-監(jiān)控報(bào)警》?
這些文獻(xiàn)資源將為在構(gòu)建與優(yōu)化線上穩(wěn)定性及監(jiān)控報(bào)警體系方面提供寶貴的參考與啟示。
審核編輯 黃宇
-
測試
+關(guān)注
關(guān)注
8文章
5668瀏覽量
128569 -
監(jiān)控
+關(guān)注
關(guān)注
6文章
2312瀏覽量
57107
發(fā)布評論請先 登錄
車間通風(fēng)系統(tǒng)監(jiān)控告警物聯(lián)網(wǎng)解決方案

輪轂電機(jī)HEV能量管理策略優(yōu)化研究
明遠(yuǎn)智睿SSD2351開發(fā)板:視頻監(jiān)控領(lǐng)域的卓越之選
RakSmart服務(wù)器成本優(yōu)化策略
5G網(wǎng)絡(luò)優(yōu)化中,信令測試儀如何幫助故障排查?
IBMS智能化系統(tǒng)集成服務(wù)器智能化集成管理系統(tǒng)

充電樁安全監(jiān)控中心:守護(hù)新能源充電安全的智慧堡壘
華為云 X 實(shí)例 CPU 性能測試詳解與優(yōu)化策略

商場泵站交替補(bǔ)水監(jiān)控告警物聯(lián)網(wǎng)解決方案
什么是回歸測試_回歸測試的測試策略
天車監(jiān)控告警物聯(lián)網(wǎng)系統(tǒng)方案

食品冷庫遠(yuǎn)程監(jiān)控自動(dòng)告警系統(tǒng)方案
電動(dòng)汽車有序充電優(yōu)化策略

高速分切機(jī)數(shù)據(jù)采集監(jiān)控告警系統(tǒng)解決方案

評論