在上篇文章“企業級存儲盤中的操作特性”中,基于一家主要存儲供應商的近200萬個SSD的大量企業存儲系統,對生產使用中SSD的關鍵操作特性進行了大規模的現場研究。今天接著分享SSD故障預測技術。
固態驅動器(SSD)故障很可能導致系統級故障,從而導致停機,從而使SSD故障預測對大規模SSD部署至關重要。現有的SSD故障預測研究大多基于定制的SSD,具有專有的監控指標,難以重現。為了支持不同驅動器模型和供應商的一般SSD故障預測,本文提出了一種向外更新集成特征排序(WEFR),以自動化、魯棒的方式選擇智能屬性作為學習特征。WEFR結合了不同的特征排序結果,根據復雜度度量和磨損程度的變化點檢測,自動生成最終的特征選擇。
01 背景及動機
一、數據收集
本文從阿里巴巴的五個基于ssd的數據中心收集數據。該數據集涵蓋了從2018年1月到2019年12月的為期兩年的、來自三個供應商的6個驅動器模型的近500Kssd。本文將這三個供應商稱為MA、MB和MC,每個供應商都包括兩個驅動器模型(用供應商后面的數字表示)。本文的數據集包括兩種數據類型:SMART日志和故障票據。
SMART日志。SMART是一種廣泛采用的監視磁盤驅動器狀態(稱為屬性)的工具。SMART屬性是特定于供應商的。它們每個都有原始的和標準化的數值(在SMART屬性名稱之后分別用“R”和“N”表示)。本文每天收集每個SSD的智能屬性。表一顯示了為每個驅動器模型收集的SMART屬性的概述。該數據集總共跨越了22個SMART屬性。
故障記錄。本文的維護系統在每個服務器上部署監視守護進程,定期執行基于規則的檢測,以檢查異常行為和故障。一旦檢測到異常行為和故障,維護系統就會生成故障報告(稱為故障記錄單)。每個故障記錄單記錄驅動器ID和故障發生的時間戳。該數據集總共涵蓋了7K個SSD故障的故障記錄單。
二、故障預測
本文將SSD故障預測作為一個離線分類問題,以預測SSD是否會在未來一段時間內(例如,在未來30天內)失敗。本文將每個SMART屬性的原始值和標準化值視為兩個學習特征,并將一個學習特征的向量稱為輸入變量。本文將驅動器狀態視為一個指標變量(稱為目標變量)(0表示健康狀態,1表示失敗)。本文將每天SSD的學習特性和驅動狀態作為樣本。本文將出現失敗ssd和健康ssd對應的樣本分別稱為陽性樣本和陰性樣本。離線故障預測的工作流程包括數據預處理、特征選擇、特征生成、預測模型訓練、預測模型驗證和預測。
三、特征選擇方法
本文考慮了五種最先進的SSD故障預測的特征選擇方法。
皮爾遜相關度量學習特征與目標變量之間的線性關系。
斯皮爾曼相關性測量了學習特征和目標變量之間的單調關系(不僅僅是線性關系)。它被之前的工作用于SSD故障預測。
J-index使用分類任務來衡量一個學習特征對目標變量的類別進行正確分類的能力。它被之前的工作用于預測HDD故障。
隨機森林提供特征重要性評估,它衡量在學習特征中添加噪聲后分類精度的降低程度。特征重要性得分較高的特征對HDD故障預測精度的影響較大。之前的工作也將隨機森林用于預測SSD故障。
XGBoost還提供了特征重要性評估,它測量了訓練具有學習特征的所有增強樹的分割數,以及在樹中使用該特征的平均增益。
02 特征重要性研究
一、特性對SSD故障預測的重要性
表三顯示了預測每個驅動器模型的SSD故障的頂部和最后三個重要的學習特征。除了重要的學習特征外,本文還觀察到存在一些瑣碎的特征(例如,PSCN和MA2的特征重要性得分和PMSCR的特征重要性得分僅為0.001)。這種瑣碎的學習特征可能會降低作為噪聲的SSD預測精度。因此,特征選擇對于預測SSD故障是必要的。
二、使用不同選擇方法的特征重要性
表4顯示,MC1的前5個重要學習特征的排名因特征選擇方法的不同而不同。這一發現也適用于其他驅動器模型(表中未顯示)。這種不同的排名帶來了以下問題:(i)哪種特征選擇方法對SSD故障預測更有效?(ii)本文應該選擇多少個重要的功能?
三、在不同的磨損程度下的特征重要性
表五顯示出在不同的磨損程度下,相同的使用隨機森林在同一數據集中進行特征選擇卻出現了不同的結果。這提示本文不同磨損階段是否有著不同的表現。
圖1顯示了六種驅動模型的存活率與MWIN之間的關系。本文觀察到,MA1、MA2、MC1和MC2的存活率隨MWIN的變化而變化,而MB1和MB2的存活率由于變化范圍較小而沒有明顯的變化趨勢。具體來說,對于MA1、MA2和MC1的存活率隨著MWIN的降低而降低,而對于MC2,隨著MWIN的降低,MWIN的存活率首先增加到70左右,然后由于固件逐漸固定的一些問題而降低。這表明,SSD的特性可能會隨著磨損程度的變化而變化。因此,特征的重要性也可能隨著MWIN值的不同而改變。
03 磨損更新的集成特征選擇
本文提出了磨損更新集成特征排序(WEFR),這是一種實用的特征排序方法,在自動和穩健的屬性中選擇學習特征,從而推廣不同模型和供應商的SSD故障預測。WEFR解決了在SSD故障預測的特征選擇方面面臨的以下挑戰:
健壯的功能選擇。不同的特征選擇方法可以選擇不同的學習特征。此外,特征選擇方法并不總是最優的各種驅動模型。因此,WEFR應該結合特征選擇方法,以一種穩健的方式來選擇特征。
正在更新功能選擇。選擇的特性不同具有不同磨損程度的SSD。此外,ssd的磨損程度也隨時間的增加而增加。因此,WEFR應該為MWIN值的ssd選擇學習特征,并隨著時間的推移更新所選特征。
算法概述:
算法1顯示了WEFR的工作流程。具體來說,它將來自相同驅動器模型的SMART屬性的學習特征作為輸入。它采用常用的特征選擇方法進行初步的特征選擇,并根據特征的重要性對學習特征進行排序。為了防止某些方法的偏差(即無效的特征選擇),它刪除了與其他方法偏差較大的排名,并通過排名的平均值(排名行1-7)獲得最終排名。它根據最終的排名自動確定特征計數,并選擇最終的學習特征(第8行)。如果它檢測到MWIN的存活率的變化點,它將更新具有不同MWIN組的SSD組的所選特征(第9-15行)。最后,它輸出在同一驅動器模型中的所有ssd或每一組MWIN的學習的學習特性。
偏差的計算如下圖所示:
04 實驗結果
一、魯棒特征選擇的有效性
本文比較了沒有特征選擇(即使用所有學習特征)和五種最先進的特征選擇方法(第II-C節)的WEFR的預測精度。對于五種最先進的特征選擇方法,本文將所選特征的百分比從10%線性調整到100%,以找到最高的預測精度。表VI顯示,與沒有特征選擇相比,WEFR對MA1、MA2、MB1、MB2、MC1和MC2的固定召回率分別提高了13%(8%)、18%、18%(12%)、17%(10%)、25%(13%)、12%(6%)和13%(6%)。總的來說,與所有驅動模型沒有特征選擇相比,WEFR將精度(f0.5分數)提高了22%(10%),證實了特征選擇對SSD故障預測的重要性。
二、自動特征選擇的有效性
本文評估了WEFR中自動特征選擇的有效性,并將其與使用固定百分比的被選擇特征(從10%線性增加到100%)進行比較。圖2顯示,當確定6個驅動器模型的所選特性的百分比時,WEFR的F0.5-score始終高于或等于最高的F0.5-score。具體來說,WEFR自動確定的MA1、MA2、MB1、MB2、MC1、MC2所選擇的特征的百分比分別為31%、34%、28%、26%、63%和28%,在確定所選特征的百分比時,與最高F0.5-score對應的所選特征的百分比接近。請注意,使用自動特性選擇也比調優生產中選定特性的適當百分比更靈活。
三、更新特征選擇的有效性
從表7中可以看出,與不更新特征選擇相比,WEFR通過更新MA1、MA2、MC1和MC2的選定特征,提高了精度和F0.5-score。具體來說,與WEFR(無更新)相比,WEFR將MA1、MA2、MC1和MC2的精度(F0.5-score)分別提高了6%(4%)、4%(2%)、5%(2%)和6%(2%)。
對于低MWIN的ssd,與WEFR(無更新)相比,WEFR對MA1、MA2、MC1和MC2的精度(f0.5分數)分別提高了13%(9%)、12%(8%)、13%(6%)和13%(6%)。這證實了特征的重要性隨著MWIN的變化而變化,有必要用MWIN更新所選的特征。高MWIN的WEFR和WEFR之間的F0.5-score(無更新)差異不顯著,且在1%以內(未見表七)。
審核編輯:湯梓紅
-
存儲
+關注
關注
13文章
4355瀏覽量
86175 -
SSD
+關注
關注
21文章
2887瀏覽量
117860 -
故障預測
+關注
關注
0文章
6瀏覽量
6676 -
固態驅動器
+關注
關注
0文章
12瀏覽量
10441
原文標題:收藏:詳談SSD故障預測技術
文章出處:【微信號:架構師技術聯盟,微信公眾號:架構師技術聯盟】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論