故障現(xiàn)象
某運(yùn)營(yíng)商TECS資源池上報(bào)“主機(jī)磁盤(pán)分區(qū)使用率過(guò)高”的告警,如下圖所示。
故障分析
查看“主機(jī)磁盤(pán)分區(qū)使用率過(guò)高”告警詳情,通過(guò)處理當(dāng)前告警的節(jié)點(diǎn)和對(duì)應(yīng)的磁盤(pán)分區(qū)能夠快速的處理和恢復(fù)告警。
告警處理完成后需要進(jìn)一步排查分區(qū)增長(zhǎng)的原因,有如下4種情況:
空間分配不足,規(guī)劃的分區(qū)空間不滿(mǎn)足現(xiàn)場(chǎng)集群和規(guī)模的要求。
出現(xiàn)大量crash和異常debug日志短時(shí)間沖擊磁盤(pán)分區(qū),可能是人為或者進(jìn)程死循環(huán)導(dǎo)致。
日志文件或者定期輪詢(xún)文件未生效,導(dǎo)致歷史文件超限。
后端存儲(chǔ)異常或者后端存儲(chǔ)復(fù)用,導(dǎo)致磁盤(pán)使用率過(guò)高。
具體分析過(guò)程如下:
1. 根據(jù)告警詳細(xì)信息,使用SSH方式登錄相應(yīng)節(jié)點(diǎn)。
2. 在異常節(jié)點(diǎn)中執(zhí)行df -h命令,檢查輸出和操作系統(tǒng)運(yùn)行情況,查看是否有系統(tǒng)只讀不可寫(xiě)等系統(tǒng)內(nèi)核崩潰情況,如下圖所示。
3. 檢查/var目錄下是否有過(guò)大問(wèn)題。通過(guò)在每級(jí)目錄中執(zhí)行du -sh * 命令,檢查文件大小,從而排查最大異常問(wèn)題,按照經(jīng)驗(yàn)var下異常大小文件一般是/var/log下的日志,如下圖所示。
4. 檢查日志存儲(chǔ)文件大小,如下圖所示。
5. 根據(jù)檢查結(jié)果發(fā)現(xiàn),logrotate機(jī)制未生效,日志文件未按照設(shè)定參數(shù)被壓縮,轉(zhuǎn)儲(chǔ)不成功,導(dǎo)致日志文件過(guò)大,占用磁盤(pán)空間。
故障處理
1. 執(zhí)行如下命令,清理磁盤(pán)。
a. 執(zhí)行> /var/lib/logrotate/logrotate.status命令,清空轉(zhuǎn)儲(chǔ)記錄。
b. 執(zhí)行l(wèi)ogrotate -d /etc/logrotate.conf命令,手動(dòng)進(jìn)行日志轉(zhuǎn)儲(chǔ)。
c. 執(zhí)行echo > /var/log/tecs/access/neutron/neutron-api.log命令,寫(xiě)入空,覆蓋到日志文件內(nèi),如下圖所示。
2. 清理完成后重新檢查文件大小和磁盤(pán)占用情況,問(wèn)題解決。
3. 總結(jié):對(duì)于磁盤(pán)分區(qū)使用率高問(wèn)題,如果使用率達(dá)到100%就會(huì)導(dǎo)致節(jié)點(diǎn)不可用,系統(tǒng)自動(dòng)備份失敗,數(shù)據(jù)庫(kù)定時(shí)備份失敗,無(wú)法登錄root用戶(hù),等相關(guān)問(wèn)題,存在很大的隱患,發(fā)現(xiàn)問(wèn)題需要盡快定位對(duì)象主機(jī)上磁盤(pán)占用高的文件,進(jìn)行處理。
本次是由于logrotate機(jī)制未生效,日志文件未按照設(shè)定參數(shù)被壓縮、轉(zhuǎn)儲(chǔ),從而使日志文件不停增大,占用全部磁盤(pán)空間導(dǎo)致。
清理文件,觸發(fā)轉(zhuǎn)儲(chǔ)服務(wù)后,磁盤(pán)占用恢復(fù)正常。
建議定期檢查系統(tǒng)磁盤(pán)空間占用,預(yù)防此類(lèi)事件發(fā)生。
-
主機(jī)
+關(guān)注
關(guān)注
0文章
1038瀏覽量
35999 -
磁盤(pán)
+關(guān)注
關(guān)注
1文章
390瀏覽量
25840 -
命令
+關(guān)注
關(guān)注
5文章
737瀏覽量
22892
原文標(biāo)題:TECS OpenStack-資源池主機(jī)磁盤(pán)分區(qū)使用率過(guò)高的問(wèn)題處理
文章出處:【微信號(hào):ztedoc,微信公眾號(hào):中興文檔】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
【雨林木風(fēng)系統(tǒng)下載教程】利用XP系統(tǒng)磁盤(pán)分區(qū)來(lái)提升讀寫(xiě)...
linux的三種磁盤(pán)分區(qū)
Linux系統(tǒng)教程之磁盤(pán)分區(qū)和LVM系統(tǒng)的詳細(xì)資料概述

Windows 10 2004版或解決CPU和磁盤(pán)使用率過(guò)高的問(wèn)題
微軟Windows 10研究新的方法管理現(xiàn)代磁盤(pán)分區(qū)
微軟Win10搜索磁盤(pán)和CPU使用率過(guò)高的問(wèn)題修復(fù)
預(yù)裝Win7系統(tǒng)劃分更多的磁盤(pán)分區(qū)的方法

獲取磁盤(pán)分區(qū)UUID的方法介紹

linux系統(tǒng)如何進(jìn)行磁盤(pán)分區(qū)?
TECS OpenStack資源池虛機(jī)殘留導(dǎo)致網(wǎng)元異常的問(wèn)題處理

TECS OpenStack資源池時(shí)間同步失敗的故障分析

TECS OpenStack資源池虛機(jī)寫(xiě)磁盤(pán)時(shí)延高告警的問(wèn)題處理

TECS OpenStack資源池虛擬機(jī)網(wǎng)絡(luò)二層地址無(wú)法互通的問(wèn)題處理

Linux系統(tǒng)中磁盤(pán)分區(qū)與掛載詳解

評(píng)論