在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

有關(guān) AI 算力,華為昇騰刷新行業(yè)記錄

Felix分析 ? 來(lái)源:電子發(fā)燒友 ? 作者:吳子鵬 ? 2025-06-16 01:08 ? 次閱讀

電子發(fā)燒友網(wǎng)報(bào)道(文 / 吳子鵬)近日,GitCode 網(wǎng)站上更新了一份題為《昇騰 AI 算力集群基礎(chǔ)設(shè)施高可用技術(shù)系列報(bào)告》的文件。報(bào)告顯示,華為團(tuán)隊(duì)通過(guò)構(gòu)建極致可靠性的 CloudMatrix 超節(jié)點(diǎn),有效降低了故障概率。在訓(xùn)練業(yè)務(wù)方面,實(shí)現(xiàn)分鐘級(jí) RTO(恢復(fù)時(shí)間目標(biāo));在高頻 HBM 場(chǎng)景下,故障恢復(fù)時(shí)間縮短至 30 秒級(jí),成功將萬(wàn)卡級(jí)訓(xùn)練集群可用度提升至 95% 以上。


此外,該文件還涵蓋硬件管理、故障感知與診斷、超節(jié)點(diǎn)系統(tǒng)等相關(guān)創(chuàng)新內(nèi)容,帶來(lái)了諸多顯著成果:萬(wàn)卡集群可用度達(dá)到 98%,集群訓(xùn)推最快實(shí)現(xiàn)秒級(jí)快速恢復(fù),集群線性度超過(guò) 95%,并建立起包含千種故障模式的數(shù)據(jù)庫(kù),實(shí)現(xiàn)分鐘級(jí)故障診斷。值得注意的是,98% 的萬(wàn)卡集群可用度在目前已公開(kāi)的數(shù)據(jù)中處于領(lǐng)先水平。

AI 算力集群穩(wěn)定性至關(guān)重要

萬(wàn)卡集群是由超過(guò)一萬(wàn)張加速卡(如 GPU、TPU 或?qū)S?AI 芯片)組成的高性能計(jì)算系統(tǒng),主要用于加速人工智能模型的訓(xùn)練和推理過(guò)程。隨著 AI 大模型參數(shù)體量不斷攀升,萬(wàn)卡集群已逐漸成為行業(yè)標(biāo)配,甚至可以說(shuō)是最低配置。

這一趨勢(shì)推動(dòng)了算力規(guī)模的快速增長(zhǎng)。根據(jù) IDC 的報(bào)告,2024 年全球智能算力規(guī)模達(dá) 725.3EFLOPS(FP16),同比激增 74.1%。預(yù)計(jì)到 2025 年,中國(guó)智能算力規(guī)模將突破 1037.3EFLOPS,相比 2023 年實(shí)現(xiàn)翻倍增長(zhǎng)。

然而,萬(wàn)卡集群在實(shí)際應(yīng)用中面臨著三大顯著挑戰(zhàn):其一,穩(wěn)定性直接影響 “算力利用率”,在大規(guī)模訓(xùn)練過(guò)程中,節(jié)點(diǎn)故障可能導(dǎo)致梯度同步中斷、模型參數(shù)回滾,甚至需要重新啟動(dòng)訓(xùn)練任務(wù);其二,動(dòng)態(tài)實(shí)時(shí)推理系統(tǒng)任務(wù)呈現(xiàn)兩極分化的特點(diǎn),推理階段硬件需同時(shí)滿足高吞吐與低延遲的要求,并且在不同場(chǎng)景下都要有穩(wěn)定表現(xiàn);其三,實(shí)現(xiàn)復(fù)雜萬(wàn)卡集群的長(zhǎng)期穩(wěn)定運(yùn)行難度巨大,萬(wàn)卡集群包含數(shù)萬(wàn)顆芯片、數(shù)十萬(wàn)條光鏈路、數(shù)千臺(tái)交換機(jī),僅光模塊故障率就會(huì)隨著規(guī)模擴(kuò)大呈指數(shù)增長(zhǎng),傳統(tǒng)單機(jī)冗余方案在萬(wàn)卡規(guī)模下因 “故障定位難、恢復(fù)時(shí)間長(zhǎng)” 而失效。

在這些顯性挑戰(zhàn)背后,還隱藏著其他問(wèn)題。例如,在長(zhǎng)穩(wěn)運(yùn)行方面,除了硬件設(shè)備的穩(wěn)定性,還需考慮軟件調(diào)度的 “蝴蝶效應(yīng)”。在超大規(guī)模訓(xùn)練中,單個(gè)節(jié)點(diǎn)的 HBM 內(nèi)存錯(cuò)誤可能引發(fā)梯度同步失敗,進(jìn)而破壞整個(gè)集群的參數(shù)一致性,若調(diào)度系統(tǒng)無(wú)法快速隔離故障節(jié)點(diǎn),可能引發(fā) “級(jí)聯(lián)失效”;同時(shí),網(wǎng)絡(luò)拓?fù)涞拇嗳跣砸膊蝗莺鲆暎f(wàn)卡集群通常采用 Fat-Tree 或 3D Torus 拓?fù)洌诵慕粨Q機(jī)負(fù)載極高,一旦發(fā)生擁塞或鏈路閃斷,會(huì)導(dǎo)致全局通信延遲大幅上升。

可用性(Availability)與穩(wěn)定性一樣,也是衡量超大規(guī)模集群性能的核心指標(biāo),它是穩(wěn)定性的量化體現(xiàn),指集群在規(guī)定時(shí)間內(nèi)正常運(yùn)行、滿足計(jì)算需求的比例,通常以百分比表示。據(jù)測(cè)算,萬(wàn)卡集群的可用性每提升 1%,相當(dāng)于每年節(jié)省數(shù)千萬(wàn)算力成本,這也是頭部 AI 企業(yè)將可用性視為 “算力投資回報(bào)率” 核心指標(biāo)的原因。

提升萬(wàn)卡集群可用性

如前文所述,萬(wàn)卡級(jí)集群的穩(wěn)定性和可用性已不再僅僅是技術(shù)指標(biāo),而是決定 AI 產(chǎn)業(yè)競(jìng)爭(zhēng)力的關(guān)鍵要素。華為團(tuán)隊(duì)通過(guò)構(gòu)建極致可靠性的 CloudMatrix 超節(jié)點(diǎn),大幅降低故障概率,實(shí)現(xiàn)訓(xùn)練業(yè)務(wù)分鐘級(jí) RTO 以及高頻 HBM 場(chǎng)景 30 秒級(jí)故障恢復(fù)。

為解決萬(wàn)卡級(jí)別 AI 集群平均每天會(huì)出現(xiàn)一次甚至多次故障的問(wèn)題,華為團(tuán)隊(duì)提出基于系統(tǒng)工程的硬件故障管理技術(shù),建立起集群全系統(tǒng)可靠性分析模型。CloudMatrix 384 超節(jié)點(diǎn)計(jì)算柜和總線設(shè)備柜關(guān)鍵部件均采用冗余設(shè)計(jì):在計(jì)算柜方面,整柜電源模塊冗余,風(fēng)扇采用 N+1 冗余,并配備 2N 和 N+R 等供電系統(tǒng);總線設(shè)備柜的交換機(jī)采用雙電源供電設(shè)計(jì),風(fēng)扇同樣采用 N+1 冗余設(shè)計(jì)。此外,還引入了 NPU HBM 多級(jí) RAS 技術(shù)以及光模塊本體高可靠技術(shù),使 CloudMatrix 超節(jié)點(diǎn)具備萬(wàn)卡集群連續(xù)數(shù)天無(wú)故障運(yùn)行的硬件高可靠能力,系統(tǒng)可用度超過(guò) 95%。

wKgZPGhL-O-AJep8AAIybs8R8b8670.png
CloudMatrix 超節(jié)點(diǎn),圖源:華為技術(shù)報(bào)告

針對(duì)萬(wàn)卡集群規(guī)模大、故障頻發(fā),軟硬技術(shù)棧復(fù)雜,涉及數(shù)據(jù)多、傳播快、依賴復(fù)雜等問(wèn)題,華為團(tuán)隊(duì)提出大規(guī)模集群在線故障感知與診斷技術(shù)。該方案提供全棧監(jiān)控,F(xiàn)lowScope 利用自研可編程設(shè)備實(shí)現(xiàn)準(zhǔn) TB 級(jí)流量預(yù)處理,能夠在域內(nèi)快速定位故障。目前該技術(shù)已在華為云產(chǎn)品技術(shù)棧落地,支持網(wǎng)絡(luò)故障 3 分鐘感知、5 分鐘定界,網(wǎng)絡(luò)故障診斷準(zhǔn)確率達(dá) 95%。

wKgZPGhL-PiAYTqxAAMLovPpLAs521.png
網(wǎng)絡(luò)域故障定位,圖源:華為技術(shù)報(bào)告


為打造緊耦合服務(wù)器模式,華為團(tuán)隊(duì)提出極致可靠性的 CloudMatrix 超節(jié)點(diǎn)系統(tǒng)技術(shù)。單個(gè)超節(jié)點(diǎn)由 48 臺(tái)服務(wù)器組成,每臺(tái)服務(wù)器包含 4 顆 CPU 及 8 顆 NPU。每臺(tái)服務(wù)器的接口數(shù)量為:管存 / VPC 平面 2200GE;參數(shù)面 8400GE;超節(jié)點(diǎn)平面 56×400G HCCS。一個(gè)機(jī)柜最大支持 4 個(gè) 8 卡節(jié)點(diǎn),管存面 / 參數(shù)面交換機(jī)以及超節(jié)點(diǎn) L2 層交換機(jī)外置,支持靈活組網(wǎng)。該超節(jié)點(diǎn)的設(shè)計(jì)目標(biāo)是實(shí)現(xiàn)光模塊閃斷的故障率容忍度超過(guò) 99%;將高頻的 HBM 多比特 ECC 故障恢復(fù)時(shí)間縮短至 1 分鐘,使因 HBM 故障造成的用戶算力損失下降 5%。通過(guò) “系統(tǒng)層容錯(cuò)”“業(yè)務(wù)層容錯(cuò)” 以及后續(xù) “運(yùn)維層容錯(cuò)” 方案,成功實(shí)現(xiàn)了這一目標(biāo)。

wKgZO2hL-QOABPofAAKjfJl-JB4792.png
CloudMatrix 超節(jié)點(diǎn)系統(tǒng)技術(shù),圖源:華為技術(shù)報(bào)告


為做到千億稀疏模型訓(xùn)練線性度優(yōu)化,華為團(tuán)隊(duì)提出 4 項(xiàng)關(guān)鍵技術(shù),包括拓?fù)涓兄膮f(xié)同編排技術(shù) TACO、網(wǎng)絡(luò)級(jí)網(wǎng)存算融合技術(shù) NSF、拓?fù)涓兄膶哟位?a href="http://m.xsypw.cn/soft/data/43-44/" target="_blank">通信技術(shù) NB、無(wú)侵入通信跨層測(cè)量與診斷技術(shù) AICT。實(shí)驗(yàn)及理論分析結(jié)果顯示,Pangu Ultra 135B 稠密、Pangu Ultra MoE 718B 稀疏模型訓(xùn)練線性度超過(guò) 95%。具體來(lái)看,訓(xùn)練 Pangu Ultra 135B 稠密模型時(shí),4K 卡 Atlas 800T A2 集群相比 256 卡基線,線性度為 96%;訓(xùn)練 Pangu Ultra MoE 718B 稀疏模型時(shí),8K 卡 A2 集群相比 512 卡基線,線性度為 95.05%;4K 卡 CloudMatrix 集群相比 256 卡基線,線性度為 96.48%。

wKgZPGhL-Q2ADe0cAAKZp2-Qpbk404.png
線性度問(wèn)題分析,圖源:華為技術(shù)報(bào)告

針對(duì)大 EP 推理架構(gòu)的可靠性難題,華為團(tuán)隊(duì)提出千億 MOE 分布式推理分鐘級(jí)恢復(fù)技術(shù),通過(guò)基于請(qǐng)求切流實(shí)例間恢復(fù)、基于實(shí)例 / Pod 重調(diào)度與進(jìn)程原地恢復(fù)的實(shí)例內(nèi)有感恢復(fù)、基于 token 級(jí)重試和減卡容錯(cuò)的實(shí)例內(nèi)無(wú)損恢復(fù)的三級(jí)容錯(cuò)方案,從芯片驅(qū)動(dòng)層、框架層、平臺(tái)層協(xié)同發(fā)力,構(gòu)筑端到端可靠性體系。面向未來(lái),華為團(tuán)隊(duì)還將持續(xù)研發(fā)減卡彈性恢復(fù)技術(shù)和基于快照進(jìn)程的進(jìn)程初始化加速技術(shù)。

wKgZO2hL-RaAMIVNAANrFY199uY985.png
千億 MOE 分布式推理分鐘級(jí)恢復(fù)技術(shù),圖源:華為技術(shù)報(bào)告

結(jié)語(yǔ)

在 AI 算力集群邁向萬(wàn)卡規(guī)模的產(chǎn)業(yè)變革進(jìn)程中,華為昇騰憑借 CloudMatrix 超節(jié)點(diǎn)技術(shù)體系,通過(guò)硬件冗余設(shè)計(jì)、全棧故障感知、系統(tǒng)層容錯(cuò)等創(chuàng)新舉措,將萬(wàn)卡集群可用度提升至行業(yè)領(lǐng)先的 95% 以上,實(shí)現(xiàn)高頻 HBM 故障 30 秒級(jí)恢復(fù)、訓(xùn)練線性度超 95% 的突破,切實(shí)解決了大規(guī)模算力集群穩(wěn)定性與可用性的核心難題。這不僅為 AI 大模型訓(xùn)練與推理構(gòu)建了堅(jiān)實(shí)的算力底座,更以 “每提升 1% 可用度節(jié)省數(shù)千萬(wàn)成本” 的實(shí)際效益,重新定義了算力投資回報(bào)率的行業(yè)標(biāo)準(zhǔn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 華為
    +關(guān)注

    關(guān)注

    216

    文章

    35084

    瀏覽量

    255268
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    34553

    瀏覽量

    276083
收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    KADC 2025,筑起行業(yè)智能化的屏障

    伙伴與開(kāi)發(fā)者,站在鯤鵬基座之后
    的頭像 發(fā)表于 05-29 10:09 ?456次閱讀
    KADC 2025,筑起<b class='flag-5'>行業(yè)</b>智能化的<b class='flag-5'>算</b><b class='flag-5'>力</b>屏障

    大華股份亮相華為中國(guó)合作伙伴大會(huì)2025 星漢×推動(dòng)行業(yè)創(chuàng)新發(fā)展

    以“因聚而生 眾智有為”為主題的“華為中國(guó)合作伙伴大會(huì)2025”在深圳國(guó)際會(huì)展中心舉辦。作為華為的生態(tài)合作伙伴,大華股份受邀出席峰會(huì),亮相多展區(qū)并攜手
    的頭像 發(fā)表于 03-25 17:43 ?1271次閱讀
    大華股份亮相<b class='flag-5'>華為</b>中國(guó)合作伙伴大會(huì)2025 星漢×<b class='flag-5'>昇</b><b class='flag-5'>騰</b>推動(dòng)<b class='flag-5'>行業(yè)</b>創(chuàng)新發(fā)展

    創(chuàng)思遠(yuǎn)達(dá)與合作推動(dòng)AI PC應(yīng)用創(chuàng)新

    近日,端側(cè)智能領(lǐng)域創(chuàng)新者創(chuàng)思遠(yuǎn)達(dá)攜手,基于平臺(tái)正式發(fā)布一系列AIPC應(yīng)用。雙方深度融
    的頭像 發(fā)表于 03-25 10:22 ?559次閱讀

    (原創(chuàng))310B(8T/20T)力主板定制方案

    310B(20T)力主板規(guī)格書 1.功能、性能與接口a)310B 20T
    發(fā)表于 03-16 21:43

    潤(rùn)和軟件將持續(xù)深化“+DeepSeek”技術(shù)路線

    (以下簡(jiǎn)稱“潤(rùn)和軟件”)作為生態(tài)核心伙伴受邀出席,人工智能研究院AI總工朱凱分享了基于“ + openEuler + OpenHar
    的頭像 發(fā)表于 03-08 09:39 ?668次閱讀

    華為OpenLab助力打造行業(yè)AI解決方案

    在業(yè)界首先完成了DeepSeek核心算法適配,支持DeepSeek全系模型預(yù)訓(xùn)練及微調(diào),生態(tài)最優(yōu)、適配最好、模型架構(gòu)最親和,是DeepSeek
    的頭像 發(fā)表于 02-19 10:35 ?509次閱讀
    <b class='flag-5'>華為</b>OpenLab助力打造<b class='flag-5'>行業(yè)</b><b class='flag-5'>AI</b>解決方案

    華為推出DeepSeek大模型一體機(jī)

    DeepSeek大模型的橫空出世,讓AI正以前所未有的速度重塑各行各業(yè)的發(fā)展格局。DeepSeek一體機(jī)深度融合騰高性能
    的頭像 發(fā)表于 02-18 09:56 ?1955次閱讀

    迅龍軟件出席華為APN伙伴大會(huì),獲APN鉆石伙伴授牌及兩項(xiàng)大獎(jiǎng)

    2025年2月15日,華為APN伙伴大會(huì)在深圳順利舉辦。本次大會(huì)匯聚來(lái)自能源、交通、制造、教育等各行各業(yè)的APN合作伙伴,共同探討A
    的頭像 發(fā)表于 02-17 17:04 ?931次閱讀
    迅龍軟件出席<b class='flag-5'>華為</b><b class='flag-5'>昇</b><b class='flag-5'>騰</b>APN伙伴大會(huì),獲<b class='flag-5'>昇</b><b class='flag-5'>騰</b>APN鉆石伙伴授牌及兩項(xiàng)大獎(jiǎng)

    喜訊 英碼科技受邀出席華為APN伙伴大會(huì),正式成為「鉆石部件伙伴」,喜獲多個(gè)重磅獎(jiǎng)項(xiàng)!

    2025年2月15日,華為APN伙伴大會(huì)在深圳順利舉辦。英碼科技以戰(zhàn)略級(jí)合作伙伴身份喜獲雙重殊榮——榮登 「鉆石部件伙伴」 行列,并
    的頭像 發(fā)表于 02-17 16:32 ?497次閱讀
    喜訊 英碼科技受邀出席<b class='flag-5'>華為</b><b class='flag-5'>昇</b><b class='flag-5'>騰</b>APN伙伴大會(huì),正式成為「<b class='flag-5'>昇</b><b class='flag-5'>騰</b>鉆石部件伙伴」,喜獲多個(gè)重磅獎(jiǎng)項(xiàng)!

    云天勵(lì)飛攜手華為打造智中心解決方案

    ,在深圳等地的打造了一系列“AI+”標(biāo)桿項(xiàng)目,為國(guó)產(chǎn)AI生態(tài)構(gòu)建樹(shù)立典范。雙方基于AI在多地打造了邊緣智
    的頭像 發(fā)表于 12-12 16:05 ?1891次閱讀

    研華發(fā)布高性能工業(yè)邊緣 AI 方案 攜手引領(lǐng)邊緣 AI 革新

    生態(tài)伙伴云工場(chǎng)、華瞳智能,共同分享 AI 產(chǎn)業(yè)的落地成果。會(huì)上,研華重磅發(fā)布了基于 310 系列平臺(tái)的工業(yè)邊緣 AI
    的頭像 發(fā)表于 09-26 10:54 ?593次閱讀
    研華發(fā)布高性能工業(yè)邊緣 <b class='flag-5'>AI</b> <b class='flag-5'>算</b><b class='flag-5'>力</b>方案 攜手<b class='flag-5'>昇</b><b class='flag-5'>騰</b>引領(lǐng)邊緣 <b class='flag-5'>AI</b> 革新

    華為與中軟國(guó)際簽合作協(xié)議 發(fā)電力行業(yè)數(shù)字化轉(zhuǎn)型

    華為與北京中軟國(guó)際信息技術(shù)有限公司達(dá)成合作;雙方將通過(guò)緊密協(xié)作和高效聯(lián)合拓展電力行業(yè)影響。雙方將基于華為
    的頭像 發(fā)表于 09-11 15:25 ?1244次閱讀

    思原生,助力智譜打造自主創(chuàng)新大模型體系!

    自從全面啟動(dòng)原生開(kāi)發(fā),越來(lái)越多的生態(tài)伙伴選擇,大模型生態(tài)從“應(yīng)用遷移”走向“原生開(kāi)發(fā)”,充分依托
    的頭像 發(fā)表于 08-20 18:29 ?738次閱讀
    <b class='flag-5'>昇</b><b class='flag-5'>騰</b>與<b class='flag-5'>昇</b>思原生,助力智譜打造自主創(chuàng)新大模型體系!

    香橙派亮相AI開(kāi)發(fā)者創(chuàng)享日,打造“AI+鴻蒙”高開(kāi)發(fā)板

    6月29日,AI開(kāi)發(fā)者創(chuàng)享日·廣東站在廣州成功舉辦。本次活動(dòng)匯聚人工智能領(lǐng)域頂尖人才,為開(kāi)發(fā)者帶來(lái)
    的頭像 發(fā)表于 07-05 15:31 ?1013次閱讀
    香橙派亮相<b class='flag-5'>昇</b><b class='flag-5'>騰</b><b class='flag-5'>AI</b>開(kāi)發(fā)者創(chuàng)享日,打造“<b class='flag-5'>AI</b>+鴻蒙”高<b class='flag-5'>算</b><b class='flag-5'>力</b>開(kāi)發(fā)板

    華為AI云服務(wù)可適配100多個(gè)大模型

    在近日舉辦的華為開(kāi)發(fā)者大會(huì)2024上,華為常務(wù)董事、華為云CEO張平安向全球開(kāi)發(fā)者們宣布了一項(xiàng)重大進(jìn)展——華為
    的頭像 發(fā)表于 06-24 10:49 ?1167次閱讀
    主站蜘蛛池模板: 米奇777四色精品人人爽 | 国产精品一级毛片不收费 | 一级做a爰片久久毛片鸭王 一级做a爰片久久毛片一 | 成人毛片在线播放 | 欧美一级第一免费高清 | 拍拍拍无挡视频免费全程1000 | 国产成人亚洲影视在线 | 国产美女视频黄a视频全免费网站 | 亚洲性久久久影院 | 天天干天天舔天天操 | 毛色毛片免费观看 | 狠狠色丁香婷婷综合最新地址 | 免费在线不卡视频 | 午夜免费在线观看 | 夜夜综合网 | 天天曰天天爽 | 久久天天躁狠狠躁狠狠躁 | 免费黄色福利 | 特黄特色的大片观看免费视频 | 在线免费黄色网址 | 日本口工禁漫画无遮挡全彩 | 干成人| 色多多网站在线观看 | 亚洲综合在线观看一区www | 日韩欧美卡一卡二卡新区 | 夜夜夜网 | 亚洲国产精品丝袜在线观看 | 在线免费国产视频 | 91大神视频网站 | japanese色系国产在线高清 | 色中色软件 | 插插插天天 | 午夜精品久久久久久99热 | 国产视频精品久久 | 四虎国产精品免费久久影院 | 国产经典三级在线 | 午夜三级成人三级 | 黄色短视频软件 | 天天射天天干天天操 | 国产日日干 | 国产精品久久久久久久久久影院 |