ABSTRACT摘要
本文主要介紹英偉達H100常見的故障類型和問題。
國家政府報告提出要持續(xù)推進“人工智能+”行動,大力發(fā)展人工智能行業(yè),市場上對算力的需求持續(xù)上漲,英偉達H100 GPU憑借其強大的算力,成為AI訓(xùn)練、高性能計算領(lǐng)域的核心硬件。然而,隨著使用場景的復(fù)雜化,H100服務(wù)器故障率也逐漸攀升,輕則影響業(yè)務(wù)進度,重則造成巨額損失。
今天,我們就來聊聊H100的常見故障類型問題。
一、HBM3 高帶寬內(nèi)存故障
H100在高負(fù)載、大規(guī)模集群運行環(huán)境下容易出現(xiàn)HBM3 高帶寬內(nèi)存故障問題,具體表現(xiàn)在以下幾個方面:
1.性能下降方面
計算任務(wù)時長增加:在運行復(fù)雜的深度學(xué)習(xí)模型訓(xùn)練、高性能計算(如科學(xué)計算、數(shù)據(jù)分析等)任務(wù)時,計算速度會明顯變慢。比如原本預(yù)計數(shù)小時完成的模型訓(xùn)練任務(wù),可能拖延至數(shù)倍時長仍無法完成。這是因為 HBM3 內(nèi)存負(fù)責(zé)高速存儲和讀取大量數(shù)據(jù),故障會阻礙數(shù)據(jù)的順暢傳遞,導(dǎo)致 GPU 計算單元等待數(shù)據(jù)時間增多,整體計算效率大幅降低。
多任務(wù)并行能力受限:H100 本擅長并行處理多任務(wù),內(nèi)存故障時,同時運行多個計算任務(wù)會出現(xiàn)頻繁卡頓,甚至部分任務(wù)無法正常啟動或中途報錯終止。這源于內(nèi)存無法穩(wěn)定、快速地為各任務(wù)分配和交換所需數(shù)據(jù),影響了 GPU 對多任務(wù)的協(xié)調(diào)處理。
系統(tǒng)與軟件層面
系統(tǒng)報錯頻繁:服務(wù)器在啟動、運行過程中會頻繁報錯,錯誤信息多與內(nèi)存相關(guān),如 “HBM3 memory failure”“memory access error” 等。操作系統(tǒng)日志中也會充斥大量內(nèi)存校驗失敗、數(shù)據(jù)不一致的記錄,這反映出內(nèi)存讀寫異常,數(shù)據(jù)完整性受損。
軟件崩潰:依賴 GPU 加速的軟件(如深度學(xué)習(xí)框架 TensorFlow、PyTorch 等)容易出現(xiàn)崩潰、閃退現(xiàn)象,尤其是在處理大規(guī)模數(shù)據(jù)集或復(fù)雜網(wǎng)絡(luò)架構(gòu)時。故障內(nèi)存提供的錯誤數(shù)據(jù)會引發(fā)軟件內(nèi)部邏輯錯誤,進而導(dǎo)致程序無法正常執(zhí)行。
任務(wù)結(jié)果錯誤:完成的計算任務(wù)結(jié)果出現(xiàn)明顯偏差,如深度學(xué)習(xí)模型預(yù)測準(zhǔn)確率大幅下降、科學(xué)計算得到錯誤的數(shù)值結(jié)果等。這是因為內(nèi)存故障致使部分?jǐn)?shù)據(jù)讀取錯誤或?qū)懭胧。罱K影響計算輸出。
硬件診斷工具報警:使用英偉達提供的硬件診斷工具(如 NVIDIA DCGM - Data Center GPU Manager)檢測時,會明確提示 HBM3 內(nèi)存存在故障,包括內(nèi)存帶寬利用率異常、錯誤計數(shù)增加等警告信息,提醒管理員進行硬件排查與維修。
二、NVLink 連接問題H100依賴NVLink 4.0進行GPU間高速通信,在高負(fù)載、大規(guī)模集群運行環(huán)境下,NVLink接口或橋接器可能出連接不穩(wěn)定或信號錯誤。具體表現(xiàn)在:
1.軟件工具檢測結(jié)果異常
通過 【nvidia-smi topo -m】命令查看 GPU 拓?fù)浣Y(jié)構(gòu)時,會發(fā)現(xiàn) GPU 之間沒有 NVLink 連接顯示為 “NODE”,正常連接下應(yīng)顯示為 “NV1” 或 “NV2” 等。使用 【nvidia-smi nvlink --status】命令檢查 NVLink 連接狀態(tài),若連接有問題,會顯示鏈接處于非活動狀態(tài)或出現(xiàn)錯誤,如 “Link X: Y GB/s - Inactive”。
2.系統(tǒng)日志報錯信息
系統(tǒng)日志中可能記錄有 NVLink 相關(guān)的錯誤信息。例如,出現(xiàn) “DOE(Data Object Exchange)timeout errors”,即數(shù)據(jù)對象交換超時錯誤,像 “pci 000000.0: DOE: [2c8] ABORT timed out” 這樣的報錯信息。還可能有類似 “received NVLink inband message arrived on an NVLink port NodeId X NVSwitch Y port Z which is not part of any active partition” 的錯誤提示。
3.性能表現(xiàn)不佳
數(shù)據(jù)傳輸速度明顯下降,在多 GPU 協(xié)作任務(wù)中,如深度學(xué)習(xí)模型訓(xùn)練、大規(guī)模數(shù)據(jù)分析等,數(shù)據(jù)傳輸速率低于預(yù)期,影響整體計算效率。多 GPU 應(yīng)用程序頻繁報錯,由于 NVLink 連接不穩(wěn)定,導(dǎo)致數(shù)據(jù)傳輸中斷或出現(xiàn)錯誤,使得依賴 GPU 協(xié)作的應(yīng)用程序無法正常運行,出現(xiàn)報錯、閃退等現(xiàn)象。
4.其他異常情況
多 GPU 并行計算任務(wù)中,可能出現(xiàn)任務(wù)啟動失敗、執(zhí)行過程中斷或計算結(jié)果錯誤的情況,這是因為 NVLink 連接出現(xiàn)問題后,GPU 之間無法正常通信和協(xié)作,導(dǎo)致任務(wù)無法順利進行。同時,使用 nvidia-smi 命令查看 GPU 狀態(tài)時,可能沒有 MIG 實例或活躍的 NVLink 顯示。
三、GPU核心過熱或電源問題
(一)GPU 核心過熱表現(xiàn)
1.散熱與冷卻系統(tǒng)方面
風(fēng)扇異常 :機箱內(nèi) GPU 風(fēng)扇轉(zhuǎn)速明顯加快,機箱風(fēng)扇也快速轉(zhuǎn)動,但溫度依舊持續(xù)升高,甚至可能出現(xiàn)風(fēng)扇故障報警,如通過 BMC 儀表盤查看到風(fēng)扇轉(zhuǎn)速異常。
散熱器溫度高 :用手觸摸 GPU 散熱器或其附近的金屬部件,會感覺異常燙手。
機箱內(nèi)溫度上升 :機箱內(nèi)的整體溫度明顯高于正常水平,可能導(dǎo)致其他硬件設(shè)備也出現(xiàn)過熱現(xiàn)象。
2.性能與任務(wù)執(zhí)行方面
計算性能下降 :GPU 計算速度減慢,執(zhí)行深度學(xué)習(xí)模型訓(xùn)練、科學(xué)計算等任務(wù)時,速度明顯低于正常狀態(tài),任務(wù)完成時間大幅延長。
任務(wù)中斷或失敗 :在運行高負(fù)載任務(wù)時,可能會出現(xiàn) GPU 熱保護機制觸發(fā),導(dǎo)致任務(wù)中斷、報錯甚至整個系統(tǒng)崩潰,如在運行 CUDA 程序時提示 “CUDA error: device-side assertion failed” 等錯誤信息。
無法穩(wěn)定運行 :系統(tǒng)可能出現(xiàn)頻繁的自動重啟、死機等現(xiàn)象,尤其在長時間高負(fù)載運行后更為明顯。
3.系統(tǒng)監(jiān)控與日志方面
溫度監(jiān)控工具報警 :通過 nvidia-smi 等工具查看 GPU 溫度時,會發(fā)現(xiàn)溫度持續(xù)超過正常范圍,如在正常負(fù)載下溫度超過 90°C(H100 的正常溫度范圍一般在 0°C 至 90°C 之間,但具體取決于具體應(yīng)用場景和散熱條件)。
硬件錯誤日志 :系統(tǒng)硬件錯誤日志中會出現(xiàn)與 GPU 過熱相關(guān)的警告或錯誤信息,如 “Hardware Error: Hardware error from APEI Generic Hardware Error Source” 等類似的報錯信息。
(二)電源問題表現(xiàn)
1.系統(tǒng)指示燈方面
電源指示燈異常 :系統(tǒng)電源指示燈閃爍或不亮,或出現(xiàn)與正常狀態(tài)不同的顏色顯示,如從正常的綠色變?yōu)辄S色或紅色。
其他指示燈異常 :機箱上的硬盤指示燈、網(wǎng)絡(luò)指示燈等可能也會出現(xiàn)閃爍或異常狀態(tài),表明系統(tǒng)電源供應(yīng)不穩(wěn)定。
2.系統(tǒng)運行方面
突然斷電或重啟 :系統(tǒng)在正常運行過程中突然斷電或自動重啟,且無明顯規(guī)律,這可能是由于電源供應(yīng)不穩(wěn)定導(dǎo)致的。
性能下降 :系統(tǒng)整體性能出現(xiàn)下降,如計算速度變慢、數(shù)據(jù)讀寫速度降低等,這可能是由于電源無法提供足夠的電力支持硬件設(shè)備的正常運行。
無法正常開機 :按下電源按鈕后,系統(tǒng)無法正常啟動,或者啟動過程中出現(xiàn)卡頓、停止響應(yīng)等情況。
3.系統(tǒng)監(jiān)控與日志方面
電源監(jiān)控工具報警 :通過 nvsm 命令或 BMC 網(wǎng)頁用戶界面查看電源狀態(tài)時,會發(fā)現(xiàn)電源健康狀態(tài)顯示為非正常,如 “Status_Health=Warning” 或 “Status_Health=Critical”。
日志記錄電源錯誤 :系統(tǒng)日志或電源監(jiān)控日志中會出現(xiàn)與電源相關(guān)的錯誤信息,如 “ipmitool sdr | grep -i psu” 命令查看到的電源輸出讀數(shù)接近于零或無溫度讀數(shù)。
以上就是H100常見的故障問題。
如果您的H100出現(xiàn)了故障,推薦你來深圳這家GPU維修工作室。
-
gpu
+關(guān)注
關(guān)注
28文章
4925瀏覽量
130926 -
英偉達
+關(guān)注
關(guān)注
22文章
3933瀏覽量
93366 -
H100
+關(guān)注
關(guān)注
0文章
33瀏覽量
405
發(fā)布評論請先 登錄
英偉達a100和h100哪個強?英偉達A100和H100的區(qū)別
英偉達發(fā)布新一代 GPU 架構(gòu)圖靈和 GPU 系列 Quadro RTX
NVIDIA發(fā)布最新Hopper架構(gòu)的H100系列GPU和Grace CPU超級芯片
關(guān)于NVIDIA H100 GPU的問題解答
三星正與英偉達開展GPU HBM3驗證及先進封裝服務(wù)
生成式人工智能推動,傳英偉達今年將銷售55萬個H100 GPU
MI300X能否與H100一較高下?

英偉達特供版芯片將上市:性能最高不到H100的20%

英偉達發(fā)布新一代H200,搭載HBM3e,推理速度是H100兩倍!

評論