近日,華為云 AI 峰會在北京召開,華為云副總裁黃瑾發(fā)表主題演講,介紹了更多 CloudMatrix 384超節(jié)點技術(shù)優(yōu)勢與細節(jié)。他指出,隨著大模型訓(xùn)練和推理對算力需求的爆炸式增長,傳統(tǒng)計算架構(gòu)已難以支撐 AI 技術(shù)的代際躍遷,超節(jié)點架構(gòu)的誕生不僅是技術(shù)的突破,更是以工程化創(chuàng)新開辟 AI 產(chǎn)業(yè)的新路徑。華為云 CloudMatrix 384 超節(jié)點具備 MoE 親和、以網(wǎng)強算、以存強算、長穩(wěn)可靠、朝推夜訓(xùn)、即開即用六大領(lǐng)先技術(shù)優(yōu)勢,以系統(tǒng)架構(gòu)創(chuàng)新重新定義新一代 AI 基礎(chǔ)設(shè)施。
重新定義 AI 基礎(chǔ)設(shè)施架構(gòu),開辟算力新紀元
當(dāng)前,大模型訓(xùn)練從早期小模型在單卡訓(xùn)練、小參數(shù)大模型在單機訓(xùn)練,現(xiàn)在 MoE、長序列、多模態(tài)大模型都是在 AI 集群上訓(xùn)練,AI 算力的瓶頸,從到單卡算力的瓶頸到單機內(nèi)總線帶寬的瓶頸,到現(xiàn)在集群間通信帶寬的瓶頸,需求增長了 1 萬倍。
然而過去的 8 年里,單卡硬件的算力增長了 40 倍,但是節(jié)點內(nèi)的總線帶寬只增長了 9 倍,跨節(jié)點的網(wǎng)絡(luò)帶寬只增長了 4 倍,這使得集群網(wǎng)絡(luò)通信成為當(dāng)前大模型訓(xùn)練和推理的最大挑戰(zhàn)。
黃瑾表示,面對這些挑戰(zhàn),華為云創(chuàng)新性的推出采用全對等互聯(lián)架構(gòu)的 CloudMatrix 384 超節(jié)點。這項技術(shù)創(chuàng)新跳出單點技術(shù)限制走向系統(tǒng)性、工程性的創(chuàng)新算力架構(gòu)直面通信效率瓶頸、內(nèi)存墻制約、可靠性短板三大技術(shù)挑戰(zhàn)。通過新型高速互聯(lián)總線實現(xiàn) 384 張卡互聯(lián)成為一個超級云服務(wù)器,最高提供 300Pflops 的算力規(guī)模,比業(yè)界同類產(chǎn)品領(lǐng)先 67%。
解碼六大優(yōu)勢,CloudMatrix 384 超節(jié)點重構(gòu) AI 算力架構(gòu)
目前,基于 CloudMatrix 的超節(jié)點集群已經(jīng)在蕪湖、貴安、內(nèi)蒙規(guī)模上線,黃瑾進一步深入解讀了六大技術(shù)創(chuàng)新點:
MoE 親和架構(gòu),從“小作坊”到“超級工廠”。在傳統(tǒng)架構(gòu)下,MoE 模型訓(xùn)練容易因通信延遲導(dǎo)致算力浪費,而 CloudMatrix 384 超節(jié)點的分布式推理平臺可以說是專為 MoE 大模型而生。黃瑾指出,對比一卡多專家的“小作坊模式”,超節(jié)點更像“大工廠模式”,通過高速互聯(lián)總線,能夠?qū)崿F(xiàn)一卡一專家高效分布式推理,單卡的 MoE 計算和通信效率都大幅提升。這也是為什么有幾百個政務(wù)、零售、醫(yī)療、保險、制造、礦山、旅游等各行各業(yè)的客戶,基于華為云昇騰 AI 云服務(wù)部署 DeepSeek 模型的創(chuàng)新應(yīng)用,例如智能助手、智能客服、互聯(lián)網(wǎng)搜索、內(nèi)容創(chuàng)作等各種場景落地。
以網(wǎng)強算,雙層網(wǎng)絡(luò)破解“數(shù)據(jù)堵車”。當(dāng)AI 算力走向規(guī)模化部署,單點的芯片性能不再是制約算力發(fā)展的唯一變量,如何由點及面地激活算力矩陣的共振效應(yīng),也是破解 AI 時代算力命題的關(guān)鍵一步。而釋放聯(lián)接力也正是超節(jié)點最大的創(chuàng)新突破之一,黃瑾介紹,傳統(tǒng)網(wǎng)絡(luò)像擁堵的城市道路,CloudMatrix 384 則構(gòu)建了 AI 專屬高架橋,通過 MatrixLink 服務(wù)將單層網(wǎng)絡(luò)升級為兩層高速網(wǎng)絡(luò),一層是超節(jié)點內(nèi)部的 ScaleUp 總線網(wǎng)絡(luò),確保超節(jié)點內(nèi) 384 卡全對等高速無阻塞互聯(lián),卡間超大帶寬 2.8T,納秒級時延;另一層是跨超節(jié)點間的 ScaleOut 網(wǎng)絡(luò),可支持微秒級時延,資源彈性擴展;同時,基于全局拓撲感知的智能調(diào)度算法,保障客戶任務(wù)長穩(wěn)運行。
以存強算,彈性內(nèi)存改寫“算存綁定”。華為云首創(chuàng)了 EMS 彈性內(nèi)存存儲,打破傳統(tǒng) GPU 算力與顯存綁定的關(guān)鍵障礙,通過內(nèi)存池化技術(shù),實現(xiàn)顯存和算力解綁。一方面,用 EMS 替代 NPU 中的顯存,可使得首 Token 時延降低,最高降幅可達 80%;另一方面,當(dāng) NPU 的顯存不足時,EMS 獨立擴容,不必再通過堆 NPU 以獲得更多內(nèi)存。同時,EMS 還支持算力卸載,這也使得系統(tǒng)吞吐量提升,有的場景達 100%的提升。總之,這一技術(shù)創(chuàng)新大幅提升了資源利用率、性能和吞吐量。
長穩(wěn)可靠,故障自愈的“AI 醫(yī)生”。隨著模型訓(xùn)練需求的不斷接入,大集群的運維難度大、復(fù)雜性高的問題日益凸顯。對此,華為云開發(fā)了昇騰云腦運維“1-3-10”標準,即 1 分鐘感知、3 分鐘定界、10 分鐘內(nèi)恢復(fù)。通過 5 層壓測、靜默故障感知技術(shù),昇騰云腦可將硬件故障感知率從 40%提升至 90%。同時,覆蓋計算、存儲、網(wǎng)絡(luò)、軟件四大種類故障模式庫也打通了全棧故障場景,這一全棧故障知識庫能夠覆蓋 95%常見問題以實現(xiàn)故障快速定界;在恢復(fù)機制上則,3 層快恢技術(shù)、快速建鏈技術(shù)、圖編譯緩存等技術(shù)能夠?qū)崿F(xiàn)萬卡故障快速恢復(fù)。
朝推夜訓(xùn),算力資源“錯峰用電”。在大模型訓(xùn)練中,提升算力利用率,避免算力閑置也是企業(yè)關(guān)心的重點之一。CloudMatrix384 超節(jié)點通過“訓(xùn)推共池”“靈活調(diào)度”兩大關(guān)鍵技術(shù)實現(xiàn)朝推夜訓(xùn),白天進行模型推理,晚上閑時進行模型訓(xùn)練,算力資源利用率可提升 30%以上。
即開即用,“算力水電”普惠模式。為助力客戶更好地專注業(yè)務(wù)模型開發(fā),華為云已經(jīng)在全國三大樞紐數(shù)據(jù)中心——烏蘭察布、貴安和蕪湖完成了超節(jié)點規(guī)模布局,支持百 TB 級的帶寬互聯(lián),10 毫秒時延圈覆蓋全國 19 個城市群,讓客戶能夠第一時間享受到即開即用的 AI 算力資源。同時,華為云擁有專業(yè)的超節(jié)點運維團隊,在為客戶免去繁瑣的管理和維護的同時,保障資源的穩(wěn)定運行。
做好智能世界云底座和使能器,加速行業(yè)智能躍遷
如今 AI 已經(jīng)成為最有影響力的通用技術(shù),如何將技術(shù)價值轉(zhuǎn)化為應(yīng)用成果,成為千行百業(yè)面臨的核心課題。華為云超節(jié)點創(chuàng)新系統(tǒng)架構(gòu)的背后,是華為云堅持“昇騰云服務(wù)支持百模千態(tài),盤古大模型重塑千行萬業(yè)”的戰(zhàn)略。
黃瑾強調(diào),一直以來華為云持續(xù)推動昇騰 AI 云服務(wù)全面升級,通過打磨昇騰云的訓(xùn)練、推理的性能、可靠性和性價比,為中國乃至全球客戶提供好用、易用的 AI 算力云服務(wù)。現(xiàn)已全面適配了 DeepSeek 在內(nèi)的 160 多個大模型,以云服務(wù)的方式,協(xié)助客戶進行模型的開發(fā),訓(xùn)練,托管和應(yīng)用。昇騰 AI 云服務(wù)上線以來,面向政府、金融、零售、互聯(lián)網(wǎng)、交通、制造等行業(yè)已經(jīng)服務(wù)六百多家創(chuàng)新先鋒企業(yè),加速行業(yè)智能化應(yīng)用的快速落地。
在充滿突破和創(chuàng)新的 AI 發(fā)展過程中,每一個階段都會產(chǎn)生大量的新技術(shù)、新模式,企業(yè)唯有抓住 AI 時代機遇,才能搶占發(fā)展先機。黃瑾表示,面向智能世界,華為云致力于做好行業(yè)數(shù)字化的“云底座”和“使能器”,堅定打造 AI 算力底座,以安全、穩(wěn)定、高質(zhì)量、持續(xù)創(chuàng)新的 AI 云服務(wù),賦能千行萬業(yè)應(yīng)用創(chuàng)新,攜手伙伴、客戶加速行業(yè)智能躍遷。
-
云計算
+關(guān)注
關(guān)注
39文章
7974瀏覽量
139815 -
AI
+關(guān)注
關(guān)注
88文章
34918瀏覽量
278116 -
華為云
+關(guān)注
關(guān)注
3文章
2768瀏覽量
18263
發(fā)布評論請先 登錄
軟通動力攜手華為云發(fā)布AI應(yīng)用創(chuàng)新領(lǐng)航計劃
華為開發(fā)者大會2025亮點:軟通動力分論壇成功舉辦,發(fā)布四大解決方案與產(chǎn)品

華為開發(fā)者大會2025(HDC 2025)亮點:華為云發(fā)布盤古大模型5.5 宣布新一代昇騰AI云服務(wù)上線

有關(guān) AI 算力,華為昇騰刷新行業(yè)記錄

NVIDIA 采用納微半導(dǎo)體開發(fā)新一代數(shù)據(jù)中心電源架構(gòu) 800V HVDC 方案,賦能下一代AI兆瓦級算力需求

華為云超節(jié)點創(chuàng)新算力基礎(chǔ)設(shè)施,推動千行萬業(yè)AI應(yīng)用開發(fā)落地
華為公布AI基礎(chǔ)設(shè)施架構(gòu)突破性新進展
軟通動力攜手伙伴發(fā)布六大聯(lián)合解決方案

從虛擬化到AI基礎(chǔ)設(shè)施:Gartner定義下一代超融合的“全棧”路徑
華為打造移動AI時代領(lǐng)先電信基礎(chǔ)設(shè)施
湖南 DeepSeek+昇騰云技術(shù)應(yīng)用沙龍成功舉辦,拓維信息助力 AI 新范式探索

評論