在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

SSD的可靠性可靠性量化指標MTBF

SSDFans ? 來源:Memblaze ? 作者:Memblaze ? 2021-10-11 09:50 ? 次閱讀

企業環境復雜多變,快速增長的業務需求使得企業在數據存儲規模、存儲性能和可靠性等多方面提出了越來越高的要求。SSD固態硬盤憑借極高的讀寫性能、極低延遲成為越來越多企業的首選解決方案,并在數據庫、虛擬化、應用加速、大數據、云計算乃至人工智能等領域發揮重要作用。企業級SSD往往需要在高并發、大壓力、24小時全天候運行的嚴苛環境下運行,其可靠性是企業級用戶的重點關注之一。

可靠性指的是一個部件或系統在規定的操作條件下,在特定的時間內繼續執行其預定功能的能力。對企業級SSD而言,它是非常重要的一項指標,不僅直接決定產品出貨的良率、故障率等核心指標,而且對數據可用性、一致性的保護,也起著關鍵作用。

01

可靠性量化指標 —— MTBF

SSD的“可靠性”通常以MTBF量化衡量。MTBF全稱Mean Time between Failures,平均故障間隔時間,即產品在總的使用階段累計工作時間與故障次數的比值。它反映了產品的時間質量,產品故障越少,MTBF越高,產品可靠性也就越高。

與消費級SSD產品相比,企業級SSD在可靠性方面面臨更高挑戰。根據OCP(Open Compute Project)給出的建議,部署于數據中心的企業級SSD MTBF平均故障間隔時間要在2,000,000小時,也是目前企業級SSD奉行的標準。但是,MTBF是需要實際跑測驗證的,不能憑空而來。按照傳統方法,要完成多次200萬小時的驗證顯然不可能。那么,這長達200萬小時的平均故障間隔時間,又是如何得到的呢?

答案是基于一定樣本量,在一定時間段內通過加速因子加速(如寫入量加速、運行環境溫度加速)進行統計推斷。過程模擬典型用戶場景,通過實測驗證理論值,提前驗收產品質量。嚴謹的跑測驗證將直接決定MTBF“可靠性指標”是否真的可靠。

02

MTBF 的表征時期

和大部分電子產品一樣,SSD同樣符合浴盆曲線(失效率曲線)特性,它分為三個關鍵時期:

早期失效期(Infant Mortality)

產品在剛生產好并加電使用時,因良率等因素會導致其失效率較高。為保證交付到客戶手上的SSD符合企業級可靠性標準,企業級SSD廠商會對所有生產線上的產品進行一定時長的老化跑測,以最大程度暴露產品可能的早期失效,保證客戶拿到的產品不存在早期失效問題。

偶然失效期(Random Failures or Normal Life)

這一階段對應正式出貨產品,產品失效率較低,且較穩定。產品可靠性指標MTBF所描述的就是這個時期,即產品的穩定使用階段。

磨損期(Wearout Phase)

該階段因產品磨損、老化等因素,其失效率會隨時間的延長而呈指數級增加。此時SSD宣稱壽命已經結束,雖可繼續使用,但壞塊會隨著PE的增加而加速上升,SSD的有效預留空間(OP)逐漸消耗殆盡,設備失效率提高。對企業級SSD而言,進入磨損期的產品已不建議繼續使用。

03

MTBF = MTTF

在MTBF之外,你可能還聽過另外一個可靠性描述的詞——MTTF。對于一個可維護的設備來說,MTBF = MTTF + MTTR,三者關系如下:

MTTF (Mean Time To Failure,平均失效時間):指系統兩次失效的平均時間,取所有從系統開始正常運行到發生故障之間的時間段的平均值。MTTF =∑T1/ N;

MTTR (Mean Time To Repair,平均修復時間):指系統從發生故障到維修結束之間時間段的平均值。MTTR =∑(T2+T3)/ N;

MTBF (Mean Time Between Failure,平均無故障時間):指系統兩次故障發生之間(包括故障維修)時間段的平均值。MTBF =∑(T2+T3+T1)/ N。

因為MTTR通常遠遠小于MTTF,所以MTBF近似等于MTTF。

04

MTTF理論計算公式,2,000,000小時如何而來?

最簡單的情況下,MTTF計算遵循如下公式:

其中:

Ai 為 SSD i 的加速因子;

ti 為 SSD i 的測試時間;

nf 為出現故障 SSD 的數量;

a 為置信度(confidence limit,60%);

x2 為卡方分布(chi-squared distribution)。

上述等式中的加速因子通常分為3類:

未加速因子:A=1,通常用于固件故障;

TBW(Total Bytes Written)加速因子 :通過增加數據寫入強度進行壽命加速;

溫度加速因子 :通過升高測試環境溫度進行故障出現加速。

TBW (Total Bytes Written) 加速因子

TBW是SSD壽命單位,以壽命為1.5 DWPD,用戶容量3.84TB PBlaze6 SSD為例,其5年總的數據寫入量(也就是現場部署寫入量field)為10.5 PB,對應每天數據寫入量為5.76 TB。如果增加每天的數據寫入量(加速寫入量stress),相當于加快消耗SSD壽命,可以加速故障出現。TBW加速因子計算方法如下:

假設一個用戶容量為100G的SSD,其產品規格書定義SSD壽命為175TBW,典型使用場景下可使用5年(43800個小時)。其在1008小時內寫入130TB的數據,寫放大為1.2,則TBW加速因子為32,如果短時間內寫入更多數據,則TBW加速因子也會相應提升。

溫度加速因子

NAND因其固有特性,數據保持力會隨著溫度的升高而降低。阿倫尼烏斯公式(Arrhenius Equation)指出,在室溫 40℃ 下SSD放置 1 年(8670個小時),相當于在 85℃ 的老化室中放置 52 個小時。

JESD 22-A108定義了溫度隨時間對SSD的影響,執行高溫運行壽命(HTOL,High Temperature Operating Life)測試,可確定長時間高溫條件下SSD運行的可靠性。協議規定,如果沒有特殊要求,SSD需在 125 °C 的結溫壓力下測試。但企業級SSD一般會設計高溫保護邏輯,防止溫度過高造成NAND數據保持力下降和元器件的損壞,所以SSD的實際工作溫度不會達到125℃。

對于溫度加速因子,計算方法如下:

其中:

Ea 為失效模型的活化能 ,一般為0.7 eV;

k 為玻爾茲曼常數,8.617 x 10-5 eV/°K;

T? 為工作溫度 (標準取值為 55°C 或者 328°K);

T? 為測試加速溫度。

MTTF計算示例

假設樣本量為 400,測試時間為 1008 小時,加速因子Ai = A(TBW) * A(T) 為10,失敗的數量為0,置信度為60%,則 MTTF = MTBF = 4,400,000小時。

d48aa190-29cf-11ec-82a8-dac502259ad0.png

注意,MTBF是和溫度嚴格相關的。這一點在OCP Datacenter NVMe SSD Specification中也有提到:

MTBF 2,500,000小時(AFR≤0.35%),對應的SSD運行溫度為0℃~50℃;

MTBF 2,000,000小時(AFR≤0.44%),對應的SSD運行溫度為0℃~55℃。

但理論和現實總是有差距的。現實中產品意義上的MTBF測試,很難達到10倍的加速因子,TBW加速因子僅能用于測試NAND顆粒的壽命,實際測試中還需要考慮電路和物理接口等硬件部分的可靠性。而這部分,只能靠溫度來加速。實際操作中,MTBF=200萬小時的測試,需要至少用2000片樣品在加速因子作用下,跑滿1000小時以上。

05

MTBF 和 AFR 又是什么關系?

除了MTBF指標,還有其他可靠性量化表征指標,如故障率λ(Failure Rate)和年化故障率AFR(Annualized Failure Rate),其中AFR和MTBF又可以相互轉化。

故障率λ:SSD關鍵元器件選型時,需要確保每個元器件的故障率 λ 達標。相比故障率指標,MTBF的定義更加直接,也更適用于表現系統級的可靠性;

AFR:年化故障率,可以更好地了解在任何一年中發生硬盤故障的幾率。

MTBF 和 AFR轉化公式如下:

MTBFhours = 1/λhours

MTBFyears = 1/(λhours*24*365)

AFR = 365*24hours*λhours = 8760hours/MTBFhours

MTBF 和 AFR 的數值對應關系如下:

d4f7e25a-29cf-11ec-82a8-dac502259ad0.png

企業級SSD產品可靠性MTBF ≥ 2,000,000小時(@55℃),換算為年化失效率AFR ≤ 0.44%,對應FFR(Functional Failure Requirement,SSD在整個磨損壽命時間范圍內累積的功能失效率,以5年保修期為參考)≤2.2%。

Memblaze全系列企業級SSD均按照2,000,000小時MTBF @55℃ /2,500,000小時MTBF@50℃為標準,滿足55℃/50℃環境下7×24小時穩定不間斷運行要求、40℃環境下數據至少3個月斷電保持能力以及低于1E-17的UBER不可修復錯誤率。

06

MTBF的驗證

Memblaze自研測試平臺Whale系統

在數據可靠性技術領域,Memblaze自研了MemSolid 技術集,以保證企業級數據的一致性和可靠性。通過全路徑數據保護、LDPC軟判決解碼糾錯技術、元數據跨Channel備份保護、Die間動態RAID5恢復壞塊數據機制,以及重讀保護和過溫保護等技術,實現了PBlaze可持續的數據一致性保護,保障企業關鍵業務數據資產始終處于安全可靠的存儲環境中。

為確保出廠的SSD產品能夠滿足MTBF的標準,Memblaze運用十余年在固態硬盤領域的經驗積累,以及對用戶實際應用的理解,自主研發出MTBF測試平臺 —— Whale系統。

它參照JEDEC標準打造,適用于PCIe SSD的研發(DVT)、環境應力(EST,Environmental Stress Test)、數據保持力、生產(老化,ORT,Ongoing Reliability Testing)、RDT等測試。Whale系統預置了最接近客戶真實使用場景的測試案例,采用合理的加速因子對RDT階段產品進行長時間跑測,成為產品量產前的質量保障。

根據Memblaze的出貨量和實際故障率統計,PBlaze系列SSD的實際累計產品失效率(CFR,Cumulative Failure Rate)遠低于標稱的年化故障率。

經過十幾年在SSD行業的深耕打磨,Memblaze 已經形成從芯片、軟件、硬件、生產、出貨等各個環節的嚴密設計和嚴格的質量管控體系,能夠保證PBlaze系列企業級固態硬盤為客戶提供卓越的可靠性,也極大降低了客戶系統運行開銷(OPEX)和總體擁有成本(TCO),而Memblaze也將繼續以匠心精神,不斷打磨,不負所期!

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 存儲器
    +關注

    關注

    38

    文章

    7528

    瀏覽量

    164350
  • SSD
    SSD
    +關注

    關注

    21

    文章

    2889

    瀏覽量

    117870

原文標題:揭秘:SSD的“可靠性”到底可不可靠

文章出處:【微信號:SSDFans,微信公眾號:SSDFans】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    工業電源的可靠性和擁有成本優化

    電子發燒友網站提供《工業電源的可靠性和擁有成本優化.pdf》資料免費下載
    發表于 01-24 13:57 ?0次下載
    工業電源的<b class='flag-5'>可靠性</b>和擁有成本優化

    半導體封裝的可靠性測試及標準

    產品可靠性是指產品在規定的使用條件下和一定時間內,能夠正常運行而不發生故障的能力。它是衡量產品質量的重要指標,對提高客戶滿意度和復購率具有重要影響。金鑒實驗室作為一家提供檢測、鑒定、認證和研發服務
    的頭像 發表于 11-21 14:36 ?295次閱讀
    半導體封裝的<b class='flag-5'>可靠性</b>測試及標準

    微電子器件可靠性失效分析程序

    微電子器件可靠性失效分析程序
    的頭像 發表于 11-01 11:08 ?1446次閱讀
    微電子器件<b class='flag-5'>可靠性</b>失效分析程序

    MSP430 FRAM質量和可靠性

    電子發燒友網站提供《MSP430 FRAM質量和可靠性.pdf》資料免費下載
    發表于 10-18 11:10 ?0次下載
    MSP430 FRAM質量和<b class='flag-5'>可靠性</b>

    如何保證備自投裝置可靠性和穩定性

    備用電源自動投入裝置(簡稱備自投)是一種保證配電系統可靠、連續供電的安全設備,因此它的可靠性和穩定性直接決定了系統的供電質量,那么該如何保證備自投裝置的可靠性和穩定性呢?今天從專業的角度和大家聊一聊。
    的頭像 發表于 10-17 17:44 ?285次閱讀
    如何保證備自投裝置<b class='flag-5'>可靠性</b>和穩定性

    無鉛焊接的可靠性

    電子發燒友網站提供《無鉛焊接的可靠性.pdf》資料免費下載
    發表于 10-16 10:50 ?5次下載

    PCB高可靠性化要求與發展——PCB高可靠性的影響因素(上)

    在電子工業的快速發展中,印刷電路板(PCB)的可靠性始終是設計和制造的核心考量。隨著集成電路(IC)的集成度不斷提升,PCB不僅需要實現更高的組裝密度,還要應對高頻信號傳輸的挑戰。這些趨勢對PCB
    的頭像 發表于 10-11 11:20 ?445次閱讀
    PCB高<b class='flag-5'>可靠性</b>化要求與發展——PCB高<b class='flag-5'>可靠性</b>的影響因素(上)

    利用TPS2116提高電表應用的系統可靠性

    電子發燒友網站提供《利用TPS2116提高電表應用的系統可靠性.pdf》資料免費下載
    發表于 09-24 09:21 ?2次下載
    利用TPS2116提高電表應用的系統<b class='flag-5'>可靠性</b>

    針對高可靠性應用的電壓轉換

    電子發燒友網站提供《針對高可靠性應用的電壓轉換.pdf》資料免費下載
    發表于 09-18 14:46 ?0次下載
    針對高<b class='flag-5'>可靠性</b>應用的電壓轉換

    可靠性BAW振蕩器MTBF和時基故障率計算

    電子發燒友網站提供《高可靠性BAW振蕩器MTBF和時基故障率計算.pdf》資料免費下載
    發表于 08-29 11:52 ?1次下載
    高<b class='flag-5'>可靠性</b>BAW振蕩器<b class='flag-5'>MTBF</b>和時基故障率計算

    基于可靠性設計感知的EDA解決方案

    產品可靠性,包括制造和運營方面,正在成為芯片-封裝-系統迭代設計周期中設計的關鍵方面,尤其是那些有望承受更長使用壽命和可能的惡劣操作環境的產品,例如汽車電子系統、高性能計算 (HPC)、電信
    的頭像 發表于 07-15 09:56 ?487次閱讀
    基于<b class='flag-5'>可靠性</b>設計感知的EDA解決方案

    汽車功能安全與可靠性的關系

    當前,隨著汽車領域的飛速發展,汽車也被重新定義。在汽車電子電氣系統設計時,離不開對功能安全和可靠性設計的考慮。正確理解兩者之間的關系,有助于更好地分析問題和解決問題。什么是汽車可靠性汽車可靠性是指
    的頭像 發表于 07-13 08:28 ?3295次閱讀
    汽車功能安全與<b class='flag-5'>可靠性</b>的關系

    請問FATFS文件系統可靠性如何?

    ST官方固件庫中使用了FATFS文件系統,想問下,這個文件系統可靠么? 我想了解一下,有哪位朋友真正產品上使用FATFS文件系統,可靠性有什么問題沒有。
    發表于 05-16 06:35

    AC/DC電源模塊的可靠性設計與測試方法

    OSHIDA ?AC/DC電源模塊的可靠性設計與測試方法 AC/DC電源模塊是一種將交流電能轉換為直流電能的設備,廣泛應用于各種電子設備中,如電腦、手機充電器、顯示器等。由于其關系到設備的供電穩定性
    的頭像 發表于 05-14 13:53 ?871次閱讀
    AC/DC電源模塊的<b class='flag-5'>可靠性</b>設計與測試方法

    半導體可靠性手冊

    電子發燒友網站提供《半導體可靠性手冊.pdf》資料免費下載
    發表于 03-04 09:35 ?24次下載
    主站蜘蛛池模板: 国产盗摄女厕美女嘘嘘 | 国产精品1区2区3区在线播放 | 欧美男女交性过程视频 | 国模在线视频一区二区三区 | 天堂资源在线bt种子 | 亚洲日本精品 | 动漫精品成人免费网站 | 中文天堂在线最新版在线www | 18年大片免费在线观看 | 亚洲男人a天堂在线2184 | 男女视频在线看 | 日韩a视频| 天天干天天插天天射 | 农村妇女野外一级毛片 | 天堂网在线www最新版在线 | 日日夜夜2017 | 久久久久久久国产 | 靓装爱神12丝袜在线播放 | 俺去鲁婷婷六月色综合 | 中文字幕精品一区 | 欧美一级高清片欧美国产欧美 | 午夜影院色 | 欧美高清一级 | 中国国产aa一级毛片 | 私色综合网 | 日本韩国三级在线 | 77788色淫网站女女免费视频 | 最新中文字幕在线资源 | 99久久免费精品国产免费高清 | 99在线国产 | 91福利网winktv | 人成网站在线观看 | 久久永久免费视频 | 全部在线播放免费毛片 | 国产精品久久久久久久成人午夜 | 性欧美大战久久久久久久 | 女人张开腿给男人桶爽免费 | 中文字幕第13亚洲另类 | 五月天婷亚洲 | 国产乱理论片在线观看理论 | 18美女扒开尿口无遮挡 |