電子發(fā)燒友網(wǎng)報(bào)道(文 / 吳子鵬)近日,GitCode 網(wǎng)站上更新了一份題為《昇騰 AI 算力集群基礎(chǔ)設(shè)施高可用技術(shù)系列報(bào)告》的文件。報(bào)告顯示,華為團(tuán)隊(duì)通過(guò)構(gòu)建極致可靠性的 CloudMatrix 超節(jié)點(diǎn),有效降低了故障概率。在訓(xùn)練業(yè)務(wù)方面,實(shí)現(xiàn)分鐘級(jí) RTO(恢復(fù)時(shí)間目標(biāo));在高頻 HBM 場(chǎng)景下,故障恢復(fù)時(shí)間縮短至 30 秒級(jí),成功將萬(wàn)卡級(jí)訓(xùn)練集群可用度提升至 95% 以上。
此外,該文件還涵蓋硬件管理、故障感知與診斷、超節(jié)點(diǎn)系統(tǒng)等相關(guān)創(chuàng)新內(nèi)容,帶來(lái)了諸多顯著成果:萬(wàn)卡集群可用度達(dá)到 98%,集群訓(xùn)推最快實(shí)現(xiàn)秒級(jí)快速恢復(fù),集群線性度超過(guò) 95%,并建立起包含千種故障模式的數(shù)據(jù)庫(kù),實(shí)現(xiàn)分鐘級(jí)故障診斷。值得注意的是,98% 的萬(wàn)卡集群可用度在目前已公開(kāi)的數(shù)據(jù)中處于領(lǐng)先水平。
AI 算力集群穩(wěn)定性至關(guān)重要
萬(wàn)卡集群是由超過(guò)一萬(wàn)張加速卡(如 GPU、TPU 或?qū)S?AI 芯片)組成的高性能計(jì)算系統(tǒng),主要用于加速人工智能模型的訓(xùn)練和推理過(guò)程。隨著 AI 大模型參數(shù)體量不斷攀升,萬(wàn)卡集群已逐漸成為行業(yè)標(biāo)配,甚至可以說(shuō)是最低配置。
這一趨勢(shì)推動(dòng)了算力規(guī)模的快速增長(zhǎng)。根據(jù) IDC 的報(bào)告,2024 年全球智能算力規(guī)模達(dá) 725.3EFLOPS(FP16),同比激增 74.1%。預(yù)計(jì)到 2025 年,中國(guó)智能算力規(guī)模將突破 1037.3EFLOPS,相比 2023 年實(shí)現(xiàn)翻倍增長(zhǎng)。
然而,萬(wàn)卡集群在實(shí)際應(yīng)用中面臨著三大顯著挑戰(zhàn):其一,穩(wěn)定性直接影響 “算力利用率”,在大規(guī)模訓(xùn)練過(guò)程中,節(jié)點(diǎn)故障可能導(dǎo)致梯度同步中斷、模型參數(shù)回滾,甚至需要重新啟動(dòng)訓(xùn)練任務(wù);其二,動(dòng)態(tài)實(shí)時(shí)推理系統(tǒng)任務(wù)呈現(xiàn)兩極分化的特點(diǎn),推理階段硬件需同時(shí)滿足高吞吐與低延遲的要求,并且在不同場(chǎng)景下都要有穩(wěn)定表現(xiàn);其三,實(shí)現(xiàn)復(fù)雜萬(wàn)卡集群的長(zhǎng)期穩(wěn)定運(yùn)行難度巨大,萬(wàn)卡集群包含數(shù)萬(wàn)顆芯片、數(shù)十萬(wàn)條光鏈路、數(shù)千臺(tái)交換機(jī),僅光模塊故障率就會(huì)隨著規(guī)模擴(kuò)大呈指數(shù)增長(zhǎng),傳統(tǒng)單機(jī)冗余方案在萬(wàn)卡規(guī)模下因 “故障定位難、恢復(fù)時(shí)間長(zhǎng)” 而失效。
在這些顯性挑戰(zhàn)背后,還隱藏著其他問(wèn)題。例如,在長(zhǎng)穩(wěn)運(yùn)行方面,除了硬件設(shè)備的穩(wěn)定性,還需考慮軟件調(diào)度的 “蝴蝶效應(yīng)”。在超大規(guī)模訓(xùn)練中,單個(gè)節(jié)點(diǎn)的 HBM 內(nèi)存錯(cuò)誤可能引發(fā)梯度同步失敗,進(jìn)而破壞整個(gè)集群的參數(shù)一致性,若調(diào)度系統(tǒng)無(wú)法快速隔離故障節(jié)點(diǎn),可能引發(fā) “級(jí)聯(lián)失效”;同時(shí),網(wǎng)絡(luò)拓?fù)涞拇嗳跣砸膊蝗莺鲆暎f(wàn)卡集群通常采用 Fat-Tree 或 3D Torus 拓?fù)洌诵慕粨Q機(jī)負(fù)載極高,一旦發(fā)生擁塞或鏈路閃斷,會(huì)導(dǎo)致全局通信延遲大幅上升。
可用性(Availability)與穩(wěn)定性一樣,也是衡量超大規(guī)模集群性能的核心指標(biāo),它是穩(wěn)定性的量化體現(xiàn),指集群在規(guī)定時(shí)間內(nèi)正常運(yùn)行、滿足計(jì)算需求的比例,通常以百分比表示。據(jù)測(cè)算,萬(wàn)卡集群的可用性每提升 1%,相當(dāng)于每年節(jié)省數(shù)千萬(wàn)算力成本,這也是頭部 AI 企業(yè)將可用性視為 “算力投資回報(bào)率” 核心指標(biāo)的原因。
提升萬(wàn)卡集群可用性
如前文所述,萬(wàn)卡級(jí)集群的穩(wěn)定性和可用性已不再僅僅是技術(shù)指標(biāo),而是決定 AI 產(chǎn)業(yè)競(jìng)爭(zhēng)力的關(guān)鍵要素。華為團(tuán)隊(duì)通過(guò)構(gòu)建極致可靠性的 CloudMatrix 超節(jié)點(diǎn),大幅降低故障概率,實(shí)現(xiàn)訓(xùn)練業(yè)務(wù)分鐘級(jí) RTO 以及高頻 HBM 場(chǎng)景 30 秒級(jí)故障恢復(fù)。
為解決萬(wàn)卡級(jí)別 AI 集群平均每天會(huì)出現(xiàn)一次甚至多次故障的問(wèn)題,華為團(tuán)隊(duì)提出基于系統(tǒng)工程的硬件故障管理技術(shù),建立起集群全系統(tǒng)可靠性分析模型。CloudMatrix 384 超節(jié)點(diǎn)計(jì)算柜和總線設(shè)備柜關(guān)鍵部件均采用冗余設(shè)計(jì):在計(jì)算柜方面,整柜電源模塊冗余,風(fēng)扇采用 N+1 冗余,并配備 2N 和 N+R 等供電系統(tǒng);總線設(shè)備柜的交換機(jī)采用雙電源供電設(shè)計(jì),風(fēng)扇同樣采用 N+1 冗余設(shè)計(jì)。此外,還引入了 NPU HBM 多級(jí) RAS 技術(shù)以及光模塊本體高可靠技術(shù),使 CloudMatrix 超節(jié)點(diǎn)具備萬(wàn)卡集群連續(xù)數(shù)天無(wú)故障運(yùn)行的硬件高可靠能力,系統(tǒng)可用度超過(guò) 95%。
CloudMatrix 超節(jié)點(diǎn),圖源:華為技術(shù)報(bào)告
針對(duì)萬(wàn)卡集群規(guī)模大、故障頻發(fā),軟硬技術(shù)棧復(fù)雜,涉及數(shù)據(jù)多、傳播快、依賴復(fù)雜等問(wèn)題,華為團(tuán)隊(duì)提出大規(guī)模集群在線故障感知與診斷技術(shù)。該方案提供全棧監(jiān)控,F(xiàn)lowScope 利用自研可編程設(shè)備實(shí)現(xiàn)準(zhǔn) TB 級(jí)流量預(yù)處理,能夠在域內(nèi)快速定位故障。目前該技術(shù)已在華為云產(chǎn)品技術(shù)棧落地,支持網(wǎng)絡(luò)故障 3 分鐘感知、5 分鐘定界,網(wǎng)絡(luò)故障診斷準(zhǔn)確率達(dá) 95%。
網(wǎng)絡(luò)域故障定位,圖源:華為技術(shù)報(bào)告
為打造緊耦合服務(wù)器模式,華為團(tuán)隊(duì)提出極致可靠性的 CloudMatrix 超節(jié)點(diǎn)系統(tǒng)技術(shù)。單個(gè)超節(jié)點(diǎn)由 48 臺(tái)服務(wù)器組成,每臺(tái)服務(wù)器包含 4 顆 CPU 及 8 顆 NPU。每臺(tái)服務(wù)器的接口數(shù)量為:管存 / VPC 平面 2200GE;參數(shù)面 8400GE;超節(jié)點(diǎn)平面 56×400G HCCS。一個(gè)機(jī)柜最大支持 4 個(gè) 8 卡節(jié)點(diǎn),管存面 / 參數(shù)面交換機(jī)以及超節(jié)點(diǎn) L2 層交換機(jī)外置,支持靈活組網(wǎng)。該超節(jié)點(diǎn)的設(shè)計(jì)目標(biāo)是實(shí)現(xiàn)光模塊閃斷的故障率容忍度超過(guò) 99%;將高頻的 HBM 多比特 ECC 故障恢復(fù)時(shí)間縮短至 1 分鐘,使因 HBM 故障造成的用戶算力損失下降 5%。通過(guò) “系統(tǒng)層容錯(cuò)”“業(yè)務(wù)層容錯(cuò)” 以及后續(xù) “運(yùn)維層容錯(cuò)” 方案,成功實(shí)現(xiàn)了這一目標(biāo)。
CloudMatrix 超節(jié)點(diǎn)系統(tǒng)技術(shù),圖源:華為技術(shù)報(bào)告
為做到千億稀疏模型訓(xùn)練線性度優(yōu)化,華為團(tuán)隊(duì)提出 4 項(xiàng)關(guān)鍵技術(shù),包括拓?fù)涓兄膮f(xié)同編排技術(shù) TACO、網(wǎng)絡(luò)級(jí)網(wǎng)存算融合技術(shù) NSF、拓?fù)涓兄膶哟位?a href="http://m.xsypw.cn/soft/data/43-44/" target="_blank">通信技術(shù) NB、無(wú)侵入通信跨層測(cè)量與診斷技術(shù) AICT。實(shí)驗(yàn)及理論分析結(jié)果顯示,Pangu Ultra 135B 稠密、Pangu Ultra MoE 718B 稀疏模型訓(xùn)練線性度超過(guò) 95%。具體來(lái)看,訓(xùn)練 Pangu Ultra 135B 稠密模型時(shí),4K 卡 Atlas 800T A2 集群相比 256 卡基線,線性度為 96%;訓(xùn)練 Pangu Ultra MoE 718B 稀疏模型時(shí),8K 卡 A2 集群相比 512 卡基線,線性度為 95.05%;4K 卡 CloudMatrix 集群相比 256 卡基線,線性度為 96.48%。
線性度問(wèn)題分析,圖源:華為技術(shù)報(bào)告
針對(duì)大 EP 推理架構(gòu)的可靠性難題,華為團(tuán)隊(duì)提出千億 MOE 分布式推理分鐘級(jí)恢復(fù)技術(shù),通過(guò)基于請(qǐng)求切流實(shí)例間恢復(fù)、基于實(shí)例 / Pod 重調(diào)度與進(jìn)程原地恢復(fù)的實(shí)例內(nèi)有感恢復(fù)、基于 token 級(jí)重試和減卡容錯(cuò)的實(shí)例內(nèi)無(wú)損恢復(fù)的三級(jí)容錯(cuò)方案,從芯片驅(qū)動(dòng)層、框架層、平臺(tái)層協(xié)同發(fā)力,構(gòu)筑端到端可靠性體系。面向未來(lái),華為團(tuán)隊(duì)還將持續(xù)研發(fā)減卡彈性恢復(fù)技術(shù)和基于快照進(jìn)程的進(jìn)程初始化加速技術(shù)。
千億 MOE 分布式推理分鐘級(jí)恢復(fù)技術(shù),圖源:華為技術(shù)報(bào)告
結(jié)語(yǔ)
在 AI 算力集群邁向萬(wàn)卡規(guī)模的產(chǎn)業(yè)變革進(jìn)程中,華為昇騰憑借 CloudMatrix 超節(jié)點(diǎn)技術(shù)體系,通過(guò)硬件冗余設(shè)計(jì)、全棧故障感知、系統(tǒng)層容錯(cuò)等創(chuàng)新舉措,將萬(wàn)卡集群可用度提升至行業(yè)領(lǐng)先的 95% 以上,實(shí)現(xiàn)高頻 HBM 故障 30 秒級(jí)恢復(fù)、訓(xùn)練線性度超 95% 的突破,切實(shí)解決了大規(guī)模算力集群穩(wěn)定性與可用性的核心難題。這不僅為 AI 大模型訓(xùn)練與推理構(gòu)建了堅(jiān)實(shí)的算力底座,更以 “每提升 1% 可用度節(jié)省數(shù)千萬(wàn)成本” 的實(shí)際效益,重新定義了算力投資回報(bào)率的行業(yè)標(biāo)準(zhǔn)。
-
華為
+關(guān)注
關(guān)注
216文章
35084瀏覽量
255268 -
AI
+關(guān)注
關(guān)注
88文章
34553瀏覽量
276083
發(fā)布評(píng)論請(qǐng)先 登錄
大華股份亮相華為中國(guó)合作伙伴大會(huì)2025 星漢×昇騰推動(dòng)行業(yè)創(chuàng)新發(fā)展

創(chuàng)思遠(yuǎn)達(dá)與昇騰合作推動(dòng)AI PC應(yīng)用創(chuàng)新
(原創(chuàng))昇騰310B(8T/20T)算力主板定制方案
潤(rùn)和軟件將持續(xù)深化“昇騰+DeepSeek”技術(shù)路線
華為OpenLab助力打造行業(yè)AI解決方案

華為推出昇騰DeepSeek大模型一體機(jī)
迅龍軟件出席華為昇騰APN伙伴大會(huì),獲昇騰APN鉆石伙伴授牌及兩項(xiàng)大獎(jiǎng)

喜訊 英碼科技受邀出席華為昇騰APN伙伴大會(huì),正式成為「昇騰鉆石部件伙伴」,喜獲多個(gè)重磅獎(jiǎng)項(xiàng)!

云天勵(lì)飛攜手華為昇騰打造智算中心解決方案
研華發(fā)布高性能工業(yè)邊緣 AI 算力方案 攜手昇騰引領(lǐng)邊緣 AI 革新

華為與中軟國(guó)際簽合作協(xié)議 發(fā)力電力行業(yè)數(shù)字化轉(zhuǎn)型
昇騰與昇思原生,助力智譜打造自主創(chuàng)新大模型體系!

香橙派亮相昇騰AI開(kāi)發(fā)者創(chuàng)享日,打造“AI+鴻蒙”高算力開(kāi)發(fā)板

評(píng)論