數字經濟時代,數據具有基礎性戰略資源和關鍵性生產要素的雙重屬性,一方面,有價值的數據資源是催生和推動數字經濟新產業、新業態、新模式發展的基礎;另一方面,數據對其他生產要素具有乘數作用,可以利用數據實現供給與需求的精準對接、創新價值鏈流轉方式,放大勞動力、資本等要素在社會各行業中的價值。數字經濟規模高速增長,數據量將迎來進一步爆發,IDC預測2025年全球數據量高達175ZB,數據存儲的可靠與可用成為了數據經濟時代的新挑戰。
為數據選擇合適的介質
存儲介質作為數據存儲的基礎載體,并不是越貴越先進越好,而是根據應用環境,合理選擇存儲介質,才能保存好數據。目前常見的存儲介質有:機械硬盤、固體硬盤、可記錄光盤、閃存卡、磁帶庫等。在為數據選擇存儲介質時,要根據具體的應用特點、性能等需求,并要考慮成本等因素。
固態硬盤作為新興的介質,雖起步較晚,但憑借性能優勢,出貨量占比的持續增長,價格持續優化,市場競爭力也在進一步提高,成為了企業核心應用數據存儲的重要選擇之一;但在大數據時代下,視頻、音頻、圖片等非結構化數據的爆發式增長,考慮機械硬盤在保障企業數據生命周期上擁有過硬的壽命,也有存儲容量與成本價格上的綜合優勢,機械硬盤目前仍是海量非結構化數據選擇最廣的存儲介質。
為了提升這些需要存儲在機械硬盤上數據的可靠可用,浪潮存儲進行了關于硬盤與存儲系統一系列的優化。
頭盤界面影響機械硬盤可靠性的主要因素
機械硬盤是一個涵蓋電氣、電子、磁學和機械領域的復雜系統,由磁頭、磁盤、主軸電機等零部件組成。
機械硬盤結構示意圖△
磁頭、磁盤和空氣軸承共同構成了硬盤頭盤界面( Head Disk Interface, HDI),作為硬盤執行讀寫數據的工作環境,其實時狀態的好壞決定了硬盤能否正常為用戶提供服務。
頭盤空間和飛行高度不僅影響信號的強度和分辨率,而且與硬盤的磁存儲密度有著密切關系,隨著磁存儲密度的提高,頭盤空間和飛行高度也相應地減小, 如今通過TFC(Thermal Fly-height Control Technology, 熱飛高控制技術)已經能將頭盤空間控制在1nm 左右,在極小空間,磁頭磁盤難免會發生碰撞接觸。
機械硬盤由于具有結構精密、復雜性高、耦合性強及抗沖擊能力弱等特點,擁有多種潛在故障模式與機理,研究硬盤故障模式、原因、機理與可靠性試驗已成為提高機械硬盤可靠性、保障存儲系統穩定、數據安全的重要基礎。
頭盤界面結構示意圖△
經過近十年的研究,硬盤頭盤界面相關研究逐漸成為硬盤故障機理研究的熱點方向,各硬盤廠商和國內外學者在硬盤故障機理方面進行了大量理論與試驗研究。
如2011年,三星公司研究結果表明頭盤界面故障是影響硬盤可靠性的主要因素,60%以上的故障與頭盤界面有關;2011年,香港城市大學對硬盤的故障模式和機理進行分級排序,確定了硬盤的主要故障模式和機理為頭盤間磨損、過應力和磁頭臂組件的共振。
實際上,產品故障或失效一般可以分為漸變失效和突變失效兩類,其中漸變失效在產品失效中占 70%~80%,是產品失效的主要形式。盡管機械硬盤擁有多種故障模式和機理,但統計發現超過 60%的故障是由機械故障導致的,而且機械故障是個緩慢退化的過程,這對開展硬盤加速退化試驗、故障預警和剩余壽命預測具有重要參考意義。
從用戶層面上來看,無法找到數據或數據已損壞是硬盤完全失效前表現出來的主要故障形式,而這一問題一般就被歸結為硬盤頭盤界面問題。在硬盤故障機理研究領域,硬盤頭盤間的磨損、過應力和磁頭臂組件的共振這三種潛在故障機理風險最高,與之對應的頭盤界面和磁頭臂組件成了硬盤最主要的故障源。
事實上,據三星公司統計,從硬盤加速壽命試驗、可靠性驗證試驗以及現場反饋數據中反映出,頭盤界面相關失效形式分別占到了各自總體失效的 64%、 77%和 64.6%,可以看出頭盤界面是影響硬盤可靠性的主要因素,而頭盤界面相關失效主要由頭盤接觸引起。
硬盤失效形式統計△
從介質和存儲系統
多層次保障數據可靠與可用
隨著信息技術的快速發展,數據中心的數據越來越多,給存儲系統可靠性和可用性的巨大挑戰。為了構建高可靠、高可用的存儲系統,系統設計者以及存儲領域研究者越來越關注存儲系統可靠性預測研究。
尤其存儲系統的架構演變,存儲組織和冗余布局也從設備(硬盤)視角變為數據(文件、對象)視角。但現有硬盤故障預測方法只是一種設備視角的可靠性動態評價,即孤立地給出硬盤個體的健康或潛在故障的評級,并未考慮它對系統(數據)可靠性的影響,如對于一個預警硬盤,如果它所屬的某些校驗組已經處于降級模式,只要再發生一個故障就會出現數據丟失,那么該預警硬盤的健康狀況對系統可靠性的影響非常大;相反,如果它所屬的校驗組都處于完全健康的模式,可以容忍一個故障發生而不丟失數據,那么該預警盤的健康狀況對系統可靠性的影響較小。
因此,有效保障存儲數據安全的故障預測,不僅要基于硬盤個體的實時健康度評價,更要結合硬盤在系統冗余布局中的角色,從存儲介質和存儲系統不同預測對象角度,綜合評價硬盤潛在故障對系統可靠性的影響,這就相當于給存儲系統帶了“健康手環”,為數據可靠性預警處理提供量化依據。
由于硬盤的TPI越來越高,飛高越來越低,軌道間距越來越窄,硬盤針對particle/contamination(顆粒/污染物)的敏感度越來越高。浪潮存儲在和硬盤廠商在產線引入特有的測試方法,通過改變HDA內部的空氣流動,將HDA腔體中散落在角落的particle/contamination攪動至磁碟表面,再通過磁臂的大幅擺動將盡可能多的污染顆粒吹至呼吸過濾器,減少頭碟接觸的風險;另外這種測試的引入也會盡可能在早期暴露因為游離顆粒產生的頭碟接觸風險,將因機械硬盤失效帶來的數據丟失隱患降到更低。
為了保證硬盤生命周期內的可靠應用,浪潮存儲通過上百次實驗摸排存儲系統的RV benchmark(旋轉振動基準)去確認外界振動對機械硬盤和系統性能的影響,通過優化系統結構剛度,增加阻尼材料,吸震材料減少風扇振動對系統剛度的影響;同時從硬盤本體系統振型角度著手,通過檢測系統功率譜識別設計結構中比較脆弱的頻率段,通過和硬盤廠商技術合作,在伺服系統里增加前置反饋,notch filter(陷波濾波器)降低因為系統本身比較脆弱的抗沖擊能力,增加整個系統的魯棒性,改善硬盤的抗震性能,使硬盤在系統100%風扇轉速,測試4種不同讀寫模式的IOPS吞吐量均可以維持在97%以上,有效的保障數據的可靠、可用。
浪潮存儲正秉承“云存智用 運籌新數據”的存儲理念,和合作伙伴一起合作進行技術創新,從介質、系統、應用全面的保障數據生命周期內的可靠、可用;未來浪潮存儲從場景出發,持續打造“穩定、可靠、經濟、高效”的存儲平臺,加速企業數字化轉型。
審核編輯 :李倩
-
數據
+關注
關注
8文章
7250瀏覽量
91579 -
固態硬盤
+關注
關注
12文章
1504瀏覽量
58477
原文標題:系統與部件協同,提高硬盤可靠性,提升存儲品質
文章出處:【微信號:inspurstorage,微信公眾號:浪潮存儲】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
Jtti.cc服務器用固態硬盤還是機械硬盤比較好?服務器硬盤挑選指南
整車測試:環境機械可靠性測試

提供半導體工藝可靠性測試-WLR晶圓可靠性測試
電機微機控制系統可靠性分析
影響信道質量的主要因素分析
N型法蘭頭壽命使用多久

PCB高可靠性化要求與發展——PCB高可靠性的影響因素(上)

愛普生展頻晶振技術降低EMI電磁干擾保障SSD固態硬盤高可靠性運轉

評論