故障現(xiàn)象
某運(yùn)營(yíng)商TECS資源池,在當(dāng)前告警中顯示“虛機(jī)寫磁盤時(shí)延高告警”,如下圖所示。告警統(tǒng)計(jì)總體平均10分鐘左右自動(dòng)恢復(fù)。
故障分析
結(jié)合現(xiàn)場(chǎng)環(huán)境和資源情況,分析問(wèn)題產(chǎn)生的可能原因如下:
1. 虛擬機(jī)系統(tǒng)異常,操作系統(tǒng)只讀不可寫。
2. 計(jì)算節(jié)點(diǎn)訪問(wèn)后端存儲(chǔ)異常。
3. 虛擬機(jī)讀寫性能不足,或者平臺(tái)QoS配置限定。
4. 虛擬機(jī)配置問(wèn)題,或者虛機(jī)被攻擊,導(dǎo)致大量寫操作。
具體問(wèn)題分析過(guò)程如下:
1. 登錄異常虛擬機(jī)操作系統(tǒng),檢查虛擬機(jī)內(nèi)部業(yè)務(wù)是否正常讀寫,以及操作系統(tǒng)狀態(tài)。
2. 虛機(jī)寫磁盤延時(shí)告警上報(bào)后,底層平臺(tái)和業(yè)務(wù)網(wǎng)元雙向檢查。
平臺(tái)檢查虛機(jī)運(yùn)行正常,無(wú)其它異常告警。
業(yè)務(wù)網(wǎng)元檢查虛機(jī)正常,網(wǎng)元無(wú)異常告警。
確認(rèn)虛機(jī)寫磁盤時(shí)延高告警僅觸發(fā)告警,無(wú)業(yè)務(wù)影響,如下圖所示。
3. 在TECS上通過(guò)告警找到對(duì)應(yīng)虛機(jī)的節(jié)點(diǎn),確定該節(jié)點(diǎn)只有一個(gè)虛機(jī)是NFV-P-***。再檢查虛機(jī)讀寫速率和虛機(jī)所在節(jié)點(diǎn)讀寫速率。
4. 執(zhí)行iostat -x 3命令,檢查服務(wù)器節(jié)點(diǎn)。持續(xù)續(xù)觀察1小時(shí),節(jié)點(diǎn)檢查正常,如下圖所示。
5. 在CloveStorage分布式存儲(chǔ)上使用告警信息中虛機(jī)名稱檢查,確認(rèn)虛機(jī)對(duì)應(yīng)卷。
a. 在TECS平臺(tái)檢查虛機(jī)對(duì)應(yīng)的云盤,獲取云盤對(duì)應(yīng)卷的ID,從告警確定虛機(jī)名,如下圖所示。
b. 測(cè)試TECS平臺(tái)使用sftp方式訪問(wèn)第三方存儲(chǔ)正常,能夠正常訪問(wèn),也能正常發(fā)送問(wèn)題。
c. 在CloveStorage分布式存儲(chǔ)上檢查每個(gè)對(duì)應(yīng)卷和集群的性能,如下圖所示。
IOPS:I/O per second,即每秒鐘可以處理的I/O個(gè)數(shù),用來(lái)衡量存儲(chǔ)系統(tǒng)的I/O處理能力,如下圖所示。
讀寫速率:每秒鐘可以處理的數(shù)據(jù)量,常以MB/s或GB/s為單位,用于衡量存儲(chǔ)系統(tǒng)的吞吐量。
I/O:輸入(input)、輸出(output)。
IO時(shí)延:發(fā)起一次I/O請(qǐng)求到I/O處理完成的時(shí)間間隔。
容量:可用的存儲(chǔ)空間大小。
6. 根據(jù)上圖可以看出IOPS值在告警時(shí)間段超出200。
7. 在TECS平臺(tái)檢查存儲(chǔ)QoS設(shè)置值,為200,如下圖所示。
8. 檢查對(duì)應(yīng)卷的IOPS值,超過(guò) 200;而卷的QoS設(shè)置IOPS最大上限為200,經(jīng)確認(rèn)出現(xiàn)時(shí)延沖高的卷QoS均超過(guò)了設(shè)定的最大值,因此存在QoS設(shè)置不合理影響卷性能的問(wèn)題。
9. 同時(shí)和業(yè)務(wù)網(wǎng)元確認(rèn),存在卷的QoS設(shè)置小于實(shí)際運(yùn)行的預(yù)期值。
10. QoS(Quality of Service)即服務(wù)質(zhì)量。在有限的資源下,QoS為各種業(yè)務(wù)分配固定的資源預(yù)留,為業(yè)務(wù)提供端到端的服務(wù)質(zhì)量保證。
卷的QoS設(shè)置IOPS和帶寬上限,當(dāng)卷的實(shí)際性能超過(guò)QoS設(shè)置的最大值時(shí),會(huì)由于QoS的限制出現(xiàn)IO隊(duì)列排隊(duì)擁塞的情況,反映到上層,即對(duì)應(yīng)的云盤IO時(shí)延增高并上報(bào)告警。
11. 通過(guò)以上檢查,發(fā)現(xiàn)存儲(chǔ)側(cè)在異常時(shí)間段沒(méi)有異常告警,確認(rèn)底層存儲(chǔ)集群運(yùn)行正常。
故障處理
1. 虛擬化平臺(tái)和業(yè)務(wù)網(wǎng)元聯(lián)合檢查確認(rèn)是因?yàn)闃I(yè)務(wù)網(wǎng)元側(cè)針對(duì)QoS設(shè)置IOPS值小于卷實(shí)際運(yùn)行的IOPS值,導(dǎo)致卷時(shí)延沖高,最終產(chǎn)生告警。
2. 修改存儲(chǔ)QoS值后,未再上報(bào)該告警。
-
運(yùn)營(yíng)商
+關(guān)注
關(guān)注
4文章
2409瀏覽量
44964 -
磁盤
+關(guān)注
關(guān)注
1文章
386瀏覽量
25569 -
命令
+關(guān)注
關(guān)注
5文章
722瀏覽量
22632 -
OpenStack
+關(guān)注
關(guān)注
1文章
71瀏覽量
19213
原文標(biāo)題:TECS OpenStack-資源池虛機(jī)寫磁盤時(shí)延高告警的問(wèn)題處理
文章出處:【微信號(hào):ztedoc,微信公眾號(hào):中興文檔】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
RCS融合通信系統(tǒng)設(shè)計(jì)方案解析

OpenStack資源調(diào)度和現(xiàn)狀分析

電力云資源池的建立

杉巖數(shù)據(jù)已實(shí)現(xiàn)了與OpenStack的全面緊耦合
OpenStack云平臺(tái)監(jiān)控?cái)?shù)據(jù)采集及處理的實(shí)踐與優(yōu)化
TECS資源池上報(bào)存儲(chǔ)設(shè)備離線的問(wèn)題處理

TECS資源池SSH控制節(jié)點(diǎn)虛機(jī)提示connection refused的問(wèn)題處理

TECS資源池上報(bào)BFD會(huì)話DOWN和網(wǎng)絡(luò)流量異常告警的問(wèn)題處理

資源池后端存儲(chǔ)服務(wù)狀態(tài)異常的問(wèn)題處理

資源池虛擬機(jī)時(shí)鐘跳變異常的問(wèn)題處理

高并發(fā)內(nèi)存池項(xiàng)目實(shí)現(xiàn)

TECS OpenStack資源池虛機(jī)殘留導(dǎo)致網(wǎng)元異常的問(wèn)題處理

TECS OpenStack資源池時(shí)間同步失敗的故障分析

TECS OpenStack資源池主機(jī)磁盤分區(qū)使用率過(guò)高的問(wèn)題處理

評(píng)論