某資源池TECS上報BFD會話DOWN告警和網絡流量異常告警,持續時間1秒至6分鐘不等,如下圖所示。
同時,業務側反饋,該資源池ISBG業務網元產生指標下降等異常情況,但已快速恢復。
物理節點上的虛擬機都通過業務面網卡和節點外部通信。當流量異常時,業務網卡上會出現很多丟棄包。
系統周期性采樣網卡所有收發包總數和丟棄包總數,當丟棄包占比數連續多次超過門限時,則上報告警;當連續幾個采樣周期的丟棄包占比數低于門限,則恢復告警。
虛擬網絡上出現較重負荷,造成報文丟棄率超過給定閾值。短暫的指標下降異常情況可能和資源相關,例如CPU、內存、網絡資源不足,或者硬盤的IO讀寫過低導致延遲。
問題分析過程如下:
1.觀察到異常情況后,對告警內容展開分析。執行dvs show-dpifstats命令,找到對應端口,查看overrun和drop統計項是否在增加。
2.觀察到計算服務器NFV-D-XXX-SRV-15業務bond子接口均上報了網絡流量異常告警,分析可能是端口丟包。
3.登錄服務器查看DVS日志,端口丟包量在告警時刻出現上漲,如下圖所示。
4.登錄云平臺查看NFV-D-XXX-SRV-15承載業務,該主機承載虛機四臺,其中包含ISBG的XX-isbg-OMPIPI_2_L虛機。分析可能為DVS接收丟包影響到虛機業務。
5.分析SAR日志,確認DVS的綁定核在故障期間出現被占用的情況,時間點與網卡丟包基本一致,認定為DVS核占用導致的DVS物理網卡丟包,如下圖所示。
6.分析BMC黑盒子日志,該時間(+8)在日志中大量出現ECC內存錯誤,內存定位DIMM11,如下圖所示。
7.ECC錯包出現的時間點與DVS網卡丟包時間點(DVS轉發核被占用的時間點)基本重合,認定內存ECC錯誤與DVS的丟包強相關。
8.根據日志顯示報錯信息,ECC內存錯誤觸發的內存槽位為DIMM11。
1.登錄管理頁面,選擇“云平臺管理-計算-實例”,選中該臺主機上虛擬機,完成主機上虛擬機的熱遷移,如下圖所示。
2.完成遷移后,選擇“云平臺管理-計算-主機”,選中這臺主機,設置維護模式,如下圖所示。
3.下電服務器完成內存更換,完成后上電,取消“設置維護模式”。
4.遷移回虛擬機,測試正常。
5.內存ECC錯誤為此次異常故障根因。內存ECC錯誤影響DVS轉發分析:
l在內存ECC錯誤故障期間,現有的BIOS配置會為每一個內存ECC錯誤產生一個SMI中斷。
如果產生ECC風暴,那么影響CPU處理性能。
SMI中斷在內核感知為NMI,不受內核控制,從硬件描述看內核是無法屏蔽此類中斷的。內存ECC默認不告警。
SMI中斷導致CPU進入SMM模式,該模式對于OS是透明的。
因此SMI中斷是硬件和固件(BIOS)共同處理的,其對于CPU處理流程的打斷,對OS而言是不可感知的,不會出現在OS的統計項里面。
只有當BIOS處理SMI后,并以SCI中斷通知OS時,OS才能感知到SCI中斷。但是BIOS是否觸發SCI中斷也不是OS所能控制的。
總之,SMI中斷對于DVS處理核的影響是硬件和固件的行為。
審核編輯:劉清
-
SAR
+關注
關注
3文章
419瀏覽量
46117 -
BIOS
+關注
關注
5文章
470瀏覽量
45959 -
ECC
+關注
關注
0文章
97瀏覽量
20657 -
虛擬機
+關注
關注
1文章
949瀏覽量
28468 -
SCI
+關注
關注
1文章
56瀏覽量
20182
原文標題:TECS資源池上報BFD會話DOWN和網絡流量異常告警的問題處理
文章出處:【微信號:ztedoc,微信公眾號:中興文檔】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
流量監測多普勒超聲波流量計助力水資源管理
![<b class='flag-5'>流量</b>監測多普勒超聲波<b class='flag-5'>流量</b>計助力水<b class='flag-5'>資源</b>管理](https://file1.elecfans.com/web1/M00/F5/DB/wKgaoWdFJAqAXEGPAAMXrrUHg6s010.png)
排查并處理共享站點S1用戶面路徑不可用告警
![排查并<b class='flag-5'>處理</b>共享站點S1用戶面路徑不可用<b class='flag-5'>告警</b>](https://file1.elecfans.com/web3/M00/06/F7/wKgZPGeRs06AKe4zAAAE2UbMrA8088.png)
交換機MC-LAG場景下單臂BFD無法UP問題
![交換機MC-LAG場景下單臂<b class='flag-5'>BFD</b>無法UP問題](https://file1.elecfans.com/web3/M00/05/5E/wKgZO2d_J6KAH2VeAAAFbvjpGNw114.png)
網絡流量監控與網關優化
VLAN 實施對網絡性能的影響
華納云:如何理解軟件定義網絡?和傳統網絡相比有哪些優勢?
![華納云:如何理解軟件定義<b class='flag-5'>網絡</b>?和傳統<b class='flag-5'>網絡</b>相比有哪些優勢?](https://file1.elecfans.com/web2/M00/08/1E/wKgZomb1FT2ALyJ7AAZWYLX5y0c509.png)
IDS、IPS與網安防御
IP地址如何進行網絡監測? ? 立即查看
艾體寶干貨 | 教程:使用ntopng和nProbe監控網絡流量
![艾體寶干貨 | 教程:使用ntopng和nProbe監控<b class='flag-5'>網絡流量</b>](https://file1.elecfans.com/web2/M00/EA/1E/wKgZomZW2VuAfxzYAAqtYGUPOGk495.png)
TSN抓包工具解密:數據包捕獲,為什么選Profishark?
![TSN抓包工具解密:數據包捕獲,為什么選Profishark?](https://file.elecfans.com/web2/M00/3F/D7/poYBAGJqPMKAEXjWAAAOpepuZJ8475.jpg)
評論