在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

服務(wù)器“異常”的幾個可能性預(yù)警請重視!

恒創(chuàng)主機服務(wù)器 ? 來源:恒創(chuàng)主機服務(wù)器 ? 作者:恒創(chuàng)主機服務(wù)器 ? 2023-04-06 17:05 ? 次閱讀

提到服務(wù)器宕機檢測,大家會想到,宕機能夠很快知道,這個有什么可做的?實際上,很多時候服務(wù)器宕機,并不總是被及時感知。服務(wù)器宕機,ping或者ssh這是最簡單的做法,但真正的工程實踐,沒這么簡單。

想要獲知服務(wù)器宕機怎么辦?可以通過服務(wù)器宕機實時檢測:

1)發(fā)現(xiàn)宕機。

2)提前告警。

3)告知宕機的詳細原因,如硬件故障,內(nèi)核bug,網(wǎng)絡(luò)異常等等。

4)自動報修生成工單。

我們知道,進行全網(wǎng)物理機宕機準(zhǔn)確探測與實時發(fā)現(xiàn),可以給宕機分析提供第一現(xiàn)場,獲取第一現(xiàn)場的日志。也可以盡早將宕機數(shù)據(jù)推送給業(yè)務(wù)或運營感知并處理,如自動報修,業(yè)務(wù)遷移等,從而盡可能將業(yè)務(wù)影響降到最低。

更重要的是,準(zhǔn)確的宕機發(fā)現(xiàn)數(shù)據(jù)可以為宕機預(yù)測提供準(zhǔn)確的標(biāo)注數(shù)據(jù),為后期宕機預(yù)測提供數(shù)據(jù)基礎(chǔ),并且這些數(shù)據(jù)提供給運營部門進行整體分析,提升處理效率。

那么,如何可以準(zhǔn)確發(fā)現(xiàn)宕機,減少誤報呢?我們可以有以下操作,比如:

心跳源檢測異常

顧名思義,通過心跳源,初步發(fā)現(xiàn)異常。通常心跳變化會有三類消息,update消息,delete消息和insert消息。心跳邏輯在于,正常情況下SA服務(wù)端與NC建立長連接,每數(shù)秒緩存一次心跳,每幾分鐘打包上報一次,但當(dāng)NC異常時,長連接感知后,立即上報異常,并修改路由表。所以心跳異常做到秒級感知。

update消息,在有心跳發(fā)生變化情況下都會有,心跳異常和心跳恢復(fù)正常時都會發(fā)起,是主要的心跳來源。

delete消息,在心跳異常,并且SA判斷ping不通,且ssh不通情況下發(fā)起,刪除該條消息,避免延遲太長。

insert消息,在新增加機器, 或者重裝后重新上位的機器發(fā)起,該消息對宕機發(fā)現(xiàn)價值不大,配合uptime使用。

心跳源檢測任務(wù)邏輯,主要是監(jiān)聽并緩存uptime消息,同時避免時間窗內(nèi)多次消息沖突,導(dǎo)致信息被覆蓋。

異常排除

排除非物理機器,將系統(tǒng)中暫時不關(guān)注的VM等產(chǎn)生的異常信息排除掉。

排除非業(yè)務(wù)狀態(tài)的機器,如裝機狀態(tài)中的,包括生產(chǎn)中,維修中,遷移中,重裝中,銷毀中,重啟中,無管控狀態(tài),只監(jiān)控正常狀態(tài)的機器。

排除非正在工作的機器,如非working狀態(tài)機器。

網(wǎng)絡(luò)干擾排除

宕機分析中,較多誤報是由于網(wǎng)絡(luò)問題干擾,無法準(zhǔn)確判斷出物理機是否宕機,有可能是網(wǎng)絡(luò)問題。

排除上聯(lián)網(wǎng)絡(luò)設(shè)備異常導(dǎo)致的誤報,包括機房斷網(wǎng)演練,小面積網(wǎng)絡(luò)故障,上聯(lián)網(wǎng)絡(luò)故障,如通過探測丟包情況,使用一些邏輯初步判斷網(wǎng)絡(luò)問題。

服務(wù)器本身未丟包的誤報,除了需要過濾出網(wǎng)絡(luò)問題,還要通過丟包數(shù)據(jù)分析,過濾掉SA誤報問題, SA異常會上報心跳異常,被誤理解為宕機。

icmp及tcp丟包分析,icmp采集頻率為固定數(shù)秒,tcp采集頻率固定數(shù)秒,包括多個不同大小包(16,32,64,128,256等)的丟包情況,根據(jù)分析時間窗內(nèi)兩項數(shù)據(jù)的丟包情況

特殊情況干擾排除

個別機房有時候會出現(xiàn)大面積風(fēng)暴式的無故心跳異常,同時網(wǎng)絡(luò)ping包異常,但上聯(lián)網(wǎng)絡(luò)設(shè)備ping包正常,這種誤報,一般根據(jù)具體case具體進行針對性的分析。如根據(jù)監(jiān)控每個機房的上報頻率,排除干擾。

進一步識別誤報

至此,大部分干擾已經(jīng)過濾掉,但仍有一部分誤報隱藏其中。比如心跳異常,ping異常,都合乎宕機判斷的邏輯,會導(dǎo)致誤判成宕機,如導(dǎo)致網(wǎng)卡被打爆,或者重試率高,這種是業(yè)務(wù)原因?qū)е戮W(wǎng)絡(luò)異常,但業(yè)務(wù)認為不是異常,需要排除掉。再例如服務(wù)器并沒有掛掉,但是IO延時和資源占用率各項指標(biāo)都不正常等場景。針對以上等情況,增加uptime判斷以及帶外日志分析排查。

宕機時間點探測uptime確定是否發(fā)生重啟。

進一步通過分析日志是否連續(xù),判斷是否發(fā)生重啟。

日志重啟特征值匹配,確認是否發(fā)生重啟。

如果還不能確定,使用uptime的時間窗技術(shù)進行重啟。

仍不能確定的待處理,進入長尾處理名單。

長尾再次處理

未確認的待處理的,會加入到長尾列表中,像這種分鐘級的心跳異常,ping異常,但串口日志一直正常輸出的情況,一般就是某種死機,死到連網(wǎng)絡(luò)都不通的場景。會觀察一段時間,一個固定時間窗內(nèi)仍未恢復(fù)或重啟的話,就暫時報宕機。后期會把這種死機單獨找劃分歸類。

講了這么多,到底效果怎么樣?

我們從準(zhǔn)確率和覆蓋率來看:

準(zhǔn)確率:目前發(fā)現(xiàn)的宕機中有很高準(zhǔn)確度,可以區(qū)分出真正宕機或者未宕機。而判斷為宕機的數(shù)據(jù)中,也存在少量的,由于缺少相關(guān)信息導(dǎo)致誤報,該部分將進一步優(yōu)化,逐漸降低誤報,在新的措施之后,該比例會接近0。

覆蓋率:當(dāng)前統(tǒng)計的覆蓋率已經(jīng)能很好的支撐日常宕機處理,該數(shù)據(jù)在有足夠的特征后,會進一步提升。

目前,宕機感知是宕機分析的基礎(chǔ),通過服務(wù)器宕機實時檢測,會把相應(yīng)的宕機原因分布整理出來,明確具體的原因,達成服務(wù)器極致可靠性。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7249

    瀏覽量

    91389
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    13

    文章

    9730

    瀏覽量

    87462
  • TCP
    TCP
    +關(guān)注

    關(guān)注

    8

    文章

    1399

    瀏覽量

    80549
收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    服務(wù)器機房用UPS系統(tǒng)的理由,可能導(dǎo)致文件損壞

    服務(wù)器機房使用UPS系統(tǒng)的重要   為了更高效地運行服務(wù)器機房,提高數(shù)字活動的可持續(xù)非常重要。
    的頭像 發(fā)表于 06-10 15:30 ?124次閱讀
    <b class='flag-5'>服務(wù)器</b>機房用UPS系統(tǒng)的理由,<b class='flag-5'>可能</b>導(dǎo)致文件損壞

    新加坡服務(wù)器延遲大嗎?真相在這里#新加坡服務(wù)器 #服務(wù)器

    服務(wù)器
    jf_57681485
    發(fā)布于 :2025年04月18日 13:48:50

    NTP校時服務(wù)器 時鐘同步服務(wù)器

    服務(wù)器
    jf_75250307
    發(fā)布于 :2025年03月19日 20:56:34

    服務(wù)器的公網(wǎng)ip無法訪問怎么辦?

    可能的原因包括安全組配置錯誤、防火墻設(shè)置問題、網(wǎng)絡(luò)路由異常服務(wù)器故障。解決方法包括檢查安全組規(guī)則、排查防火墻配置、測試網(wǎng)絡(luò)連通性以及重啟服務(wù)器等。云
    的頭像 發(fā)表于 02-17 11:06 ?450次閱讀

    服務(wù)器電源故障原因有哪些,服務(wù)器電源故障判斷方法

    服務(wù)器作為現(xiàn)代數(shù)據(jù)中心的核心組件,其穩(wěn)定性和可靠至關(guān)重要。電源作為服務(wù)器的“心臟”,其故障可能導(dǎo)致整個系統(tǒng)停機,嚴重影響業(yè)務(wù)的連續(xù)和數(shù)據(jù)
    的頭像 發(fā)表于 01-30 14:26 ?1353次閱讀

    SMTP服務(wù)器配置教程

    1. 了解SMTP服務(wù)器 SMTP服務(wù)器是用于發(fā)送電子郵件的服務(wù)器。它使用SMTP協(xié)議來處理郵件的發(fā)送。配置SMTP服務(wù)器需要了解以下幾個關(guān)
    的頭像 發(fā)表于 10-30 16:16 ?2236次閱讀

    AI如何對產(chǎn)品設(shè)計帶來更多的可能性

    AI(人工智能)對產(chǎn)品設(shè)計帶來了廣泛而深遠的可能性,這些可能性主要體現(xiàn)在以下幾個方面 1.創(chuàng)新設(shè)計的激發(fā) 創(chuàng)意生成:AI能夠?qū)W習(xí)和模仿人類設(shè)計師的創(chuàng)作過程,通過深度學(xué)習(xí)等技術(shù)生成全新的、獨特
    的頭像 發(fā)表于 10-15 11:29 ?632次閱讀

    獨立服務(wù)器與云服務(wù)器的區(qū)別

    隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,企業(yè)對于服務(wù)器的需求日益增加,而服務(wù)器市場也隨之出現(xiàn)了多種類型的產(chǎn)品,其中最常見的是獨立服務(wù)器和云服務(wù)器。這兩種服務(wù)器
    的頭像 發(fā)表于 10-12 14:34 ?658次閱讀

    超享云服務(wù)器是什么意思?是免費的嗎

    超享云服務(wù)器是一種基于云計算技術(shù),提供高性能、高可靠和可擴展性的虛擬化服務(wù)器服務(wù)。它是通過虛擬化技術(shù)在物理服務(wù)器上運行,能夠根據(jù)用戶需求進
    的頭像 發(fā)表于 10-08 10:17 ?417次閱讀

    大帶寬服務(wù)器的作用是什么

    大帶寬服務(wù)器在現(xiàn)代互聯(lián)網(wǎng)應(yīng)用中扮演著至關(guān)重要的角色,其作用主要體現(xiàn)在以下幾個方面,rak小編為您整理發(fā)布大帶寬服務(wù)器的作用是什么。
    的頭像 發(fā)表于 09-26 10:01 ?354次閱讀

    服務(wù)器和物理服務(wù)器的優(yōu)缺點對比

    服務(wù)器優(yōu)點在于靈活性強、成本效益高、易于擴展且支持全球化部署;缺點則包括安全與可控性相對較弱,性能可能受限,以及存在服務(wù)中斷風(fēng)險。物理服務(wù)器
    的頭像 發(fā)表于 08-08 09:48 ?608次閱讀

    gpu服務(wù)器與cpu服務(wù)器的區(qū)別對比,終于知道怎么選了!

    gpu服務(wù)器與cpu服務(wù)器的區(qū)別主要體現(xiàn)在架構(gòu)設(shè)計、性能特點、能耗效率、應(yīng)用場景、市場定位等方面,在以上幾個方面均存在顯著差異。CPU服務(wù)器更適合數(shù)據(jù)庫管理和企業(yè)應(yīng)用,而GPU
    的頭像 發(fā)表于 08-01 11:41 ?960次閱讀

    ai服務(wù)器是什么架構(gòu)類型

    架構(gòu)的AI服務(wù)器通常具有較高的通用,可以運行各種人工智能算法。但是,CPU架構(gòu)的AI服務(wù)器在處理大規(guī)模并行計算時,性能可能不如GPU架構(gòu)的AI服務(wù)
    的頭像 發(fā)表于 07-02 09:51 ?1826次閱讀

    ai服務(wù)器和通用服務(wù)器的區(qū)別在哪

    AI服務(wù)器和通用服務(wù)器的區(qū)別主要體現(xiàn)在以下幾個方面: 硬件配置 AI服務(wù)器和通用服務(wù)器在硬件配置上有很大的區(qū)別。AI
    的頭像 發(fā)表于 07-02 09:46 ?1814次閱讀

    AT+CIPSERVERMAXCONN查詢/設(shè)置服務(wù)器允許建立的最大連接數(shù)是幾個呢?

    AT+CIPSERVERMAXCONN查詢/設(shè)置服務(wù)器允許建立的最大連接數(shù)是幾個呢?
    發(fā)表于 06-27 08:07
    主站蜘蛛池模板: 国产精品资源网站在线观看 | 欧美综合天天夜夜久久 | 亚洲精品在线视频观看 | 丁香欧美 | 国产伦精品一区二区三区网站 | 西西人体44renti大胆亚洲 | 高清一区二区三区视频 | 香蕉蕉亚亚洲aav综合 | 天天鲁天天爽精品视频 | 色香婷婷 | 午夜国产精品久久久久 | 丝袜美女被| 久操精品在线观看 | 天天操天天草 | 久久性 | 久久久久久久久久久观看 | 天堂bt种子资源+在线 | 亚欧洲乱码专区视频 | 四虎久久精品国产 | 濑亚美莉vs黑人欧美视频 | 性瘾高h姚蕊全文免费阅读 性做久久久久 | 免费的黄色大片 | 国产一级特黄一级毛片 | 黄色三级在线观看 | 日本免费网 | 久久五月天婷婷 | 奇米影色777四色在线首页 | 亚洲综合精品成人啪啪 | 日本视频一区二区三区 | 欧美黄色一级片视频 | 精品综合久久久久久98 | 在线观看黄日本高清视频 | 日本黄色影片 | 婷婷5月天 | 日本www黄| 欧美在线视频看看 | 永久免费观看黄网站 | 图片区网友自拍另类图区 | 大香伊在人线免费 | 国产三级日本三级韩国三级在线观看 | 天天插天天爽 |