我欲封天耳根小说零,盗墓笔记有声小说,我欲封天txt下载

故障現(xiàn)象

某運(yùn)營(yíng)商TECS資源池，在當(dāng)前告警中顯示“虛機(jī)寫磁盤時(shí)延高告警”，如下圖所示。告警統(tǒng)計(jì)總體平均10分鐘左右自動(dòng)恢復(fù)。

故障分析

結(jié)合現(xiàn)場(chǎng)環(huán)境和資源情況，分析問(wèn)題產(chǎn)生的可能原因如下：

1. 虛擬機(jī)系統(tǒng)異常，操作系統(tǒng)只讀不可寫。

2. 計(jì)算節(jié)點(diǎn)訪問(wèn)后端存儲(chǔ)異常。

3. 虛擬機(jī)讀寫性能不足，或者平臺(tái)QoS配置限定。

4. 虛擬機(jī)配置問(wèn)題，或者虛機(jī)被攻擊，導(dǎo)致大量寫操作。

具體問(wèn)題分析過(guò)程如下：

1. 登錄異常虛擬機(jī)操作系統(tǒng)，檢查虛擬機(jī)內(nèi)部業(yè)務(wù)是否正常讀寫，以及操作系統(tǒng)狀態(tài)。

2. 虛機(jī)寫磁盤延時(shí)告警上報(bào)后，底層平臺(tái)和業(yè)務(wù)網(wǎng)元雙向檢查。

平臺(tái)檢查虛機(jī)運(yùn)行正常，無(wú)其它異常告警。

業(yè)務(wù)網(wǎng)元檢查虛機(jī)正常，網(wǎng)元無(wú)異常告警。

確認(rèn)虛機(jī)寫磁盤時(shí)延高告警僅觸發(fā)告警，無(wú)業(yè)務(wù)影響，如下圖所示。

3. 在TECS上通過(guò)告警找到對(duì)應(yīng)虛機(jī)的節(jié)點(diǎn)，確定該節(jié)點(diǎn)只有一個(gè)虛機(jī)是NFV-P-***。再檢查虛機(jī)讀寫速率和虛機(jī)所在節(jié)點(diǎn)讀寫速率。

4. 執(zhí)行iostat -x 3命令，檢查服務(wù)器節(jié)點(diǎn)。持續(xù)續(xù)觀察1小時(shí)，節(jié)點(diǎn)檢查正常，如下圖所示。

5. 在CloveStorage分布式存儲(chǔ)上使用告警信息中虛機(jī)名稱檢查，確認(rèn)虛機(jī)對(duì)應(yīng)卷。

a. 在TECS平臺(tái)檢查虛機(jī)對(duì)應(yīng)的云盤，獲取云盤對(duì)應(yīng)卷的ID，從告警確定虛機(jī)名，如下圖所示。

b. 測(cè)試TECS平臺(tái)使用sftp方式訪問(wèn)第三方存儲(chǔ)正常，能夠正常訪問(wèn)，也能正常發(fā)送問(wèn)題。

c. 在CloveStorage分布式存儲(chǔ)上檢查每個(gè)對(duì)應(yīng)卷和集群的性能，如下圖所示。

IOPS：I/O per second，即每秒鐘可以處理的I/O個(gè)數(shù)，用來(lái)衡量存儲(chǔ)系統(tǒng)的I/O處理能力，如下圖所示。

讀寫速率：每秒鐘可以處理的數(shù)據(jù)量，常以MB/s或GB/s為單位，用于衡量存儲(chǔ)系統(tǒng)的吞吐量。

I/O：輸入(input)、輸出(output)。

IO時(shí)延：發(fā)起一次I/O請(qǐng)求到I/O處理完成的時(shí)間間隔。

容量：可用的存儲(chǔ)空間大小。

6. 根據(jù)上圖可以看出IOPS值在告警時(shí)間段超出200。

7. 在TECS平臺(tái)檢查存儲(chǔ)QoS設(shè)置值，為200，如下圖所示。

8. 檢查對(duì)應(yīng)卷的IOPS值，超過(guò) 200;而卷的QoS設(shè)置IOPS最大上限為200，經(jīng)確認(rèn)出現(xiàn)時(shí)延沖高的卷QoS均超過(guò)了設(shè)定的最大值，因此存在QoS設(shè)置不合理影響卷性能的問(wèn)題。

9. 同時(shí)和業(yè)務(wù)網(wǎng)元確認(rèn)，存在卷的QoS設(shè)置小于實(shí)際運(yùn)行的預(yù)期值。

10. QoS(Quality of Service)即服務(wù)質(zhì)量。在有限的資源下，QoS為各種業(yè)務(wù)分配固定的資源預(yù)留，為業(yè)務(wù)提供端到端的服務(wù)質(zhì)量保證。

卷的QoS設(shè)置IOPS和帶寬上限，當(dāng)卷的實(shí)際性能超過(guò)QoS設(shè)置的最大值時(shí)，會(huì)由于QoS的限制出現(xiàn)IO隊(duì)列排隊(duì)擁塞的情況，反映到上層，即對(duì)應(yīng)的云盤IO時(shí)延增高并上報(bào)告警。

11. 通過(guò)以上檢查，發(fā)現(xiàn)存儲(chǔ)側(cè)在異常時(shí)間段沒(méi)有異常告警，確認(rèn)底層存儲(chǔ)集群運(yùn)行正常。

故障處理

1. 虛擬化平臺(tái)和業(yè)務(wù)網(wǎng)元聯(lián)合檢查確認(rèn)是因?yàn)闃I(yè)務(wù)網(wǎng)元側(cè)針對(duì)QoS設(shè)置IOPS值小于卷實(shí)際運(yùn)行的IOPS值，導(dǎo)致卷時(shí)延沖高，最終產(chǎn)生告警。

2. 修改存儲(chǔ)QoS值后，未再上報(bào)該告警。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

運(yùn)營(yíng)商

運(yùn)營(yíng)商

+關(guān)注

關(guān)注
4

文章
2409

瀏覽量
44964
磁盤

磁盤

+關(guān)注

關(guān)注
1

文章
386

瀏覽量
25569
命令

命令

+關(guān)注

關(guān)注
5

文章
722

瀏覽量
22632
OpenStack

OpenStack

+關(guān)注

關(guān)注
1

文章
71

瀏覽量
19213

原文標(biāo)題：TECS OpenStack-資源池虛機(jī)寫磁盤時(shí)延高告警的問(wèn)題處理

文章出處：【微信號(hào)：ztedoc，微信公眾號(hào)：中興文檔】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

RCS融合通信系統(tǒng)設(shè)計(jì)方案解析

TECS主要由以下部分組成：OpenStack自身的組件，OpenStack部署相關(guān)組件，以及擴(kuò)展的HA、自動(dòng)部署與管理、系統(tǒng)管理（軟、硬件資源管理）等組件，

發(fā)表于 07-01 15:45 ?3097次閱讀

OpenStack資源調(diào)度和現(xiàn)狀分析

OpenStack云端的資源調(diào)度和優(yōu)化剖析2016-07-03 19:12 作者簡(jiǎn)介：胡曉亮，目前就職于IBM Platform Computing 系統(tǒng)科技部云計(jì)算部門，擔(dān)任云計(jì)算開(kāi)發(fā)部工程師。自

發(fā)表于 10-10 10:44 ?0次下載

<b class='flag-5'>OpenStack</b><b class='flag-5'>資源</b>調(diào)度和現(xiàn)狀分析

電力云資源池的建立

國(guó)家電網(wǎng)公司從2010年開(kāi)始建設(shè)電力云資源池，存儲(chǔ)域作為資源池的必須部分，設(shè)計(jì)和實(shí)現(xiàn)存儲(chǔ)域是資源池

發(fā)表于 11-27 17:33 ?0次下載

杉巖數(shù)據(jù)已實(shí)現(xiàn)了與OpenStack的全面緊耦合

。在OpenStack的系統(tǒng)架構(gòu)下，為了支撐各種存儲(chǔ)需求，誕生了Cinder和Swift組件，其中Cinder是OpenStack中提供塊存儲(chǔ)服務(wù)的組件，主要是為虛擬機(jī)實(shí)例提供虛擬磁盤

發(fā)表于 07-20 16:57 ?844次閱讀

OpenStack云平臺(tái)監(jiān)控?cái)?shù)據(jù)采集及處理的實(shí)踐與優(yōu)化

本文介紹了在OpenStack云平臺(tái)中通過(guò)Ceilometer采集云平臺(tái)中虛擬機(jī)、磁盤、網(wǎng)絡(luò)等資源的使用數(shù)據(jù)，并通過(guò)Gnocchi處理、儲(chǔ)存

發(fā)表于 12-25 18:38 ?2171次閱讀

TECS資源池上報(bào)網(wǎng)絡(luò)流程異常告警的問(wèn)題處理

某資源池TECS上報(bào)網(wǎng)絡(luò)流程異常告警，告警單次持續(xù)15秒-4分鐘之間。

發(fā)表于 06-07 09:41 ?1143次閱讀

TECS資源池上報(bào)存儲(chǔ)設(shè)備離線的問(wèn)題處理

某資源池在運(yùn)行過(guò)程中出現(xiàn)存儲(chǔ)設(shè)備離線告警，通過(guò)底層cinder service-list命令查看，確認(rèn)存儲(chǔ)state為down狀態(tài)。

發(fā)表于 06-07 09:44 ?825次閱讀

TECS資源池SSH控制節(jié)點(diǎn)虛機(jī)提示connection refused的問(wèn)題處理

某局點(diǎn)現(xiàn)場(chǎng)TECS控制節(jié)點(diǎn)的TECSClient平面使用雙棧配置，同時(shí)使用IPv4和IPv6。

發(fā)表于 06-07 09:47 ?957次閱讀

TECS資源池上報(bào)BFD會(huì)話DOWN和網(wǎng)絡(luò)流量異常告警的問(wèn)題處理

某資源池TECS上報(bào)BFD會(huì)話DOWN告警和網(wǎng)絡(luò)流量異常告警，持續(xù)時(shí)間1秒至6分鐘不等，如下圖所示。

發(fā)表于 06-07 09:49 ?1633次閱讀

資源池后端存儲(chǔ)服務(wù)狀態(tài)異常的問(wèn)題處理

故障現(xiàn)象某資源池在巡檢過(guò)程中檢查服務(wù)狀態(tài)，其中云盤后端的服務(wù)狀態(tài)為down，如下圖所示，影響虛擬機(jī)云盤的生命周期管理操作。

發(fā)表于 09-20 11:06 ?907次閱讀

資源池虛擬機(jī)時(shí)鐘跳變異常的問(wèn)題處理

某資源池在運(yùn)行過(guò)程中一臺(tái)虛擬機(jī)出現(xiàn)業(yè)務(wù)異常，通過(guò)查看日志和異常記錄，判斷為虛擬機(jī)發(fā)生時(shí)鐘跳變問(wèn)題，如下圖所示。

發(fā)表于 09-20 11:08 ?1676次閱讀

高并發(fā)內(nèi)存池項(xiàng)目實(shí)現(xiàn)

本項(xiàng)目實(shí)現(xiàn)了一個(gè)高并發(fā)內(nèi)存池，參考了Google的開(kāi)源項(xiàng)目tcmalloc實(shí)現(xiàn)的簡(jiǎn)易版；其功能就是實(shí)現(xiàn)高效的多線程內(nèi)存管理。由功能可知，高并發(fā)指的是高效的多線程，而內(nèi)存池則是實(shí)現(xiàn)內(nèi)存管

發(fā)表于 11-09 11:16 ?915次閱讀

TECS OpenStack資源池虛機(jī)殘留導(dǎo)致網(wǎng)元異常的問(wèn)題處理

某運(yùn)營(yíng)商TECS資源池的一臺(tái)主機(jī)內(nèi)存故障，進(jìn)行關(guān)機(jī)、內(nèi)存更換操作，虛機(jī)自動(dòng)遷移到其他主機(jī)上，同時(shí)做了其他虛擬

發(fā)表于 03-03 09:42 ?240次閱讀

TECS OpenStack資源池時(shí)間同步失敗的故障分析

某運(yùn)營(yíng)商TECS OpenStack資源池，在當(dāng)前告警中顯示“時(shí)鐘同步失敗”，以10分鐘整數(shù)倍為間隔上報(bào)“時(shí)間同步失敗”

發(fā)表于 03-03 10:09 ?286次閱讀

TECS OpenStack資源池主機(jī)磁盤分區(qū)使用率過(guò)高的問(wèn)題處理

某運(yùn)營(yíng)商TECS資源池上報(bào)“主機(jī)磁盤分區(qū)使用率過(guò)高”的告警，如下圖所示。

發(fā)表于 03-21 09:47 ?308次閱讀