硬件故障在大型數據中心和云服務基礎設施中非常普遍,這些故障可能導致違反服務水平協議(SLA)并造成巨大經濟損失。
內存故障是當今數據中心中最嚴重的硬件故障之一,眾所周知,它嚴重影響了系統的可靠性、可用性和可維護性(RAS)。這些故障可能是由超出正常使用范圍的多種因素引起的,包括制造缺陷以及極端的環境或操作條件。
雖然普遍接受的技術,例如,糾錯碼(ECC)和可糾正錯誤,基于閾值的預測性故障分析(PFA))可克服雙列直插式內存模塊(DIMM)的一些可糾正錯誤,但它們具有成本、可靠性、覆蓋范圍和性能方面的影響。
可糾正錯誤數量的激增可能導致服務器性能下降,甚至導致拒絕服務。此外,ECC和基于閾值的可糾正錯誤的PFA不能幫助克服無法糾正的錯誤,如災難性故障通常導致崩潰。
對于嚴重依賴服務器可靠性、可用性和可維護性的組織,英特爾內存故障預測(Intel MFP)是理想的解決方案。對于當今的數據中心而言,提前預測未來的內存故障已變得至關重要。通過分析歷史數據以預測潛在的災難性事件,英特爾?MFP可以在內存故障事件發生之前對其進行預測。
該解決方案具有多項創新和原始功能。它基于歷史數據來預測行、列和單元格中的微型故障,并使用低開銷的在線學習方法來提高其預測精度并避免干擾關鍵的計算任務。
這也使Intel MFP能夠為主動內存故障管理生成估計的內存運行狀況評分,從而使用戶能夠采取相應的措施。英特爾MFP與供應商無關,并且可以與其他數據中心管理解決方案(包括英特爾數據中心管理器(Intel DCM))一起使用。
將與內存故障相關的服務器崩潰減少40%
在騰訊的一個案例研究中,英特爾MFP算法的初步協作測試顯示出快速的結果,并將內存故障和系統停機時間減少了五倍。合作伙伴還通過在操作系統級別明智地避免出現內存故障,直到更換了該內存模塊為止,從而擴展了此支持。
在與美團的類似案例研究中,該公司發現由于內存錯誤導致的服務器崩潰減少了40%。該公司通過將Intel MFP集成到其現有數據中心管理解決方案中,監控了服務器內存模塊的運行狀況。通過分析以前由其數據中心管理軟件收集的數據,他們能夠為每個DRAM模塊生成預測分數,然后采取適當的措施來維護其SLA并最大化服務正常運行時間。
借助新功能,英特爾與全球領先的AMI合作,通過其BIOS、BMC和安全解決方案為全球互聯數字基礎架構提供電源、管理和保護,并決心將這種支持擴展到整個行業。
因為捕獲和分析內存錯誤需要UEFI和BMC固件之間緊密的聯系,所以AMI致力于使Intel MFP易于被現有和將來的服務器平臺采用。
捕獲錯誤后,它們將由BIOS記錄,然后某些元數據信息將傳遞到BMC固件。然后,BMC固件將獲取此元數據,并通過Intel MFP引擎運行,以計算內存模塊的運行狀況得分。當檢測到新的錯誤時,AMI解決方案將跟蹤每個內存模塊的運行狀況評分,并公開結果供系統管理員進行分析。
AMI的默認實現在BUI的Web UI中提供當前的內存模塊運行狀況得分信息,并通過遵循DMTF Redfish標準的RESTful API公開相同的內存運行狀況得分信息。
RESTful API可輕松與現有數據中心管理軟件集成。但是,對于那些不太愿意與自己的軟件集成的數據中心,AMI提供了一個稱為AMI Composer的數據管理工具,該工具開發為完全符合Intel Rack Scale Design和DMTF Redfish標準,它將匯總所有信息并通過一個基于Web的儀表板。
為數據中心和云服務提供商帶來的直接好處
當然,在創建機器學習算法時,它實際上永遠不會完成。當前的Intel MFP模型支持在具有Intel Xeon可擴展處理器的平臺上運行的DDR4內存模塊,并且Intel繼續收集有關內存錯誤和內存模塊故障的更多信息,以改進模型。
此外,當新的內存模塊類型引入行業或對現有技術進行改進時,英特爾?MFP將為它們提供支持。
最重要的是,將對所有更新進行適當的分析以包含在MFP模型中,以便在英特爾更新MFP模型時,AMI將為提供給行業合作伙伴的現有技術提供易于實現的更新。
對于數據中心和云服務提供商而言,在Aptio V UEFI固件和MegaRAC BMC固件中添加Intel MFP支持的好處顯而易見。改進了數據中心SLA。通過主動的內存運行狀況評估和增強的內存頁面脫機策略,可以降低DIMM故障率。
而且,最重要的是,更高的DIMM性能和可靠性可優化工作負載和虛擬機(VM)遷移決策,從而提高效率和靈活性,同時降低總擁有成本。
對于希望在配備AMI Aptio V UEFI BIOS和MegaRAC BMC固件的系統上利用英特爾MFP的公司,建議他們要求其系統制造商將AMI連同用于MegaRAC BMC固件的帶有Intel MFP選件包的AMI和具有英特爾內存故障預測功能的AMI一起包括在內。適用于Aptio UEFI固件的eModule。
責任編輯:pj
-
英特爾
+關注
關注
61文章
10023瀏覽量
172466 -
服務器
+關注
關注
12文章
9342瀏覽量
86179 -
數據中心
+關注
關注
16文章
4876瀏覽量
72439 -
騰訊
+關注
關注
7文章
1670瀏覽量
49644
發布評論請先 登錄
相關推薦
數據中心中的FPGA硬件加速器
![<b class='flag-5'>數據中心中</b>的FPGA<b class='flag-5'>硬件</b>加速器](https://file1.elecfans.com/web3/M00/05/E9/wKgZO2eFzEqADv0LAABQx3tQZeo242.png)
亞馬遜云科技發布全新數據中心組件
淺析如何降低數據中心電力能耗
![淺析如何降低<b class='flag-5'>數據中心</b>電力能耗](https://file1.elecfans.com//web2/M00/05/D1/wKgaombVP4qAbCVGAAGicqyiOHM264.jpg)
![](https://file1.elecfans.com/web2/M00/04/92/wKgZombQGkmAbGb_AAR8LQIXDJQ743.jpg)
半導體存儲器在數據中心中的應用
![](https://file.elecfans.com/web2/M00/A8/C3/poYBAGR3QwaAR2PYAAAn1Z4oqWo051.png)
數據中心電能質量治理解決方案
![<b class='flag-5'>數據中心</b>電能質量治理解決方案](https://file1.elecfans.com//web2/M00/E9/34/wKgaomZO446ASj9FAAF6VC64sSU359.png)
為什么 PDU 在數據中心中很重要?
管理數據中心電纜的技巧
![](https://file1.elecfans.com/web2/M00/C7/34/wKgZomYR_xCAce5YAAIjhb_OHes778.png)
![](https://file1.elecfans.com/web2/M00/C5/5E/wKgZomX857aAEIGcAAS0a01_Pjw242.png)
數據中心市場的關鍵以太網解決方案
![<b class='flag-5'>數據中心</b>市場的關鍵以太網解決方案](https://file1.elecfans.com/web2/M00/C3/E8/wKgZomXvtjaAZOBeAAAPIepkkZs521.jpg)
![](https://file1.elecfans.com/web2/M00/C3/3F/wKgZomXqcP2AIWI9AATe-VmlXsI316.png)
![](https://file1.elecfans.com/web2/M00/C2/3E/wKgZomXhRx-Ab8H3AAUVCapT4AM216.png)
![](https://file1.elecfans.com/web2/M00/C0/B2/wKgZomXX_4mAUk6MAAUq0M8jrhY646.png)
評論