故障現(xiàn)象
某運(yùn)營商TECS資源池的一臺(tái)主機(jī)內(nèi)存故障,進(jìn)行關(guān)機(jī)、內(nèi)存更換操作,虛機(jī)自動(dòng)遷移到其他主機(jī)上,同時(shí)做了其他虛擬機(jī)的手動(dòng)遷移操作。后續(xù)在TECS上出現(xiàn)虛機(jī)內(nèi)核異常告警,如下圖所示。
故障分析
1. 檢查告警,確認(rèn)是一臺(tái)虛擬機(jī)的多次告警,如下圖所示。
2. 經(jīng)排查,服務(wù)器SRV-09有內(nèi)存更換和下電操作,00:39 虛機(jī)全部自動(dòng)遷移成功,其中包含了XXX0012虛機(jī),同時(shí)還包括其他網(wǎng)元的虛機(jī),其他網(wǎng)元未出現(xiàn)異常。
3. 現(xiàn)場(chǎng)進(jìn)行虛機(jī)重啟、遷移等操作,未成功恢復(fù)XXX00012虛機(jī)。分析虛機(jī)CPU都沖高到100%,虛機(jī)操作系統(tǒng)顯示軟鎖,如下圖所示。
4. 經(jīng)操作系統(tǒng)分析,是有大量外部報(bào)文沖擊導(dǎo)致CPU沖高到100%,系統(tǒng)得不到調(diào)度。
5. 將該網(wǎng)元中除XXX00012外的其他虛機(jī)都shutdown后,再重啟XXX00012虛機(jī),XXX00012虛擬機(jī)恢復(fù)正常。
6. 逐一開啟其他虛機(jī),發(fā)現(xiàn)XXX00012虛機(jī)異常,其余虛機(jī)均正常啟動(dòng)。3分鐘后XXX00012虛機(jī)CPU再次沖高到100%。
7. 分析XXX00012虛機(jī),發(fā)現(xiàn)該虛機(jī)存在I/O Error,數(shù)據(jù)盤不能正常讀寫,如下圖所示。
8. 分析虛機(jī)殘留問題,原主機(jī)SRV-09故障下電后,虛機(jī)自動(dòng)遷移,第一次自動(dòng)遷移失敗,自動(dòng)遷移落地的節(jié)點(diǎn)是SRV-10,如下圖所示。
9. SRV-10節(jié)點(diǎn)上因?yàn)閹捹Y源不足落地失敗,XXX00012虛機(jī)重新自動(dòng)遷移到SRV-12,自動(dòng)遷移成功,如下圖所示。
10. 自動(dòng)遷移異常導(dǎo)致虛機(jī)實(shí)例在SRV-10和SRV-12同時(shí)啟動(dòng),如下圖所示。
11. 綜上分析,產(chǎn)生該問題的原因是殘留虛機(jī),導(dǎo)致網(wǎng)元異常。
故障處理
1. 關(guān)閉SRV-12服務(wù)器上XXX0012虛機(jī),同時(shí)刪除SRV-10服務(wù)器上該虛機(jī)殘留的實(shí)例。
2. 重啟XXX0012虛機(jī),虛機(jī)啟動(dòng)正常,CPU恢復(fù)正常。觀察半小時(shí)未再出現(xiàn)異常。
3. 總結(jié):異地重生階段建議不要做其他互斥或者相同的操作,容易造成集群中數(shù)據(jù)不一致等問題。
-
內(nèi)核
+關(guān)注
關(guān)注
3文章
1403瀏覽量
40965 -
cpu
+關(guān)注
關(guān)注
68文章
11011瀏覽量
215247 -
內(nèi)存
+關(guān)注
關(guān)注
8文章
3102瀏覽量
74890 -
主機(jī)
+關(guān)注
關(guān)注
0文章
1029瀏覽量
35741 -
虛擬機(jī)
+關(guān)注
關(guān)注
1文章
955瀏覽量
28886
原文標(biāo)題:TECS OpenStack-資源池虛機(jī)殘留導(dǎo)致網(wǎng)元異常的問題處理
文章出處:【微信號(hào):ztedoc,微信公眾號(hào):中興文檔】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
RCS融合通信系統(tǒng)設(shè)計(jì)方案解析

OpenStack資源調(diào)度和現(xiàn)狀分析

電力云資源池的建立

OpenStack云平臺(tái)監(jiān)控?cái)?shù)據(jù)采集及處理的實(shí)踐與優(yōu)化
線程池中如何獲取和處理異常
TECS資源池上報(bào)存儲(chǔ)設(shè)備離線的問題處理

TECS資源池SSH控制節(jié)點(diǎn)虛機(jī)提示connection refused的問題處理

TECS資源池上報(bào)BFD會(huì)話DOWN和網(wǎng)絡(luò)流量異常告警的問題處理

虛機(jī)與網(wǎng)關(guān)不通的問題處理

資源池后端存儲(chǔ)服務(wù)狀態(tài)異常的問題處理

資源池虛擬機(jī)時(shí)鐘跳變異常的問題處理

TECS OpenStack資源池時(shí)間同步失敗的故障分析

TECS OpenStack資源池虛機(jī)寫磁盤時(shí)延高告警的問題處理

評(píng)論