曦智科技聯(lián)合北京大學(xué)、階躍星辰為下一代萬億參數(shù)大模型訓(xùn)練的基礎(chǔ)設(shè)施建設(shè)提出全新解決方案。
隨著大模型參數(shù)規(guī)模的擴(kuò)大,分布式訓(xùn)練成為人工智能發(fā)展的核心途徑。分布式訓(xùn)練可以將模型數(shù)據(jù)分配給多個計算節(jié)點(diǎn),進(jìn)行并行計算和數(shù)據(jù)管理,從而顯著加速模型訓(xùn)練的過程,而高帶寬域(High Bandwidht Domain, HBD)的設(shè)計對提升模型算力利用率至關(guān)重要。
然而,現(xiàn)有的HBD架構(gòu)在可擴(kuò)展性、成本和容錯能力等方面存在根本性限制:
以交換機(jī)為中心的HBD(如NVIDIA NVL72)成本高昂、不易擴(kuò)展規(guī)模。
以以AI 加速器(包括GPU 與專用ASIC)為中心的HBD(如Google TPUv3和Tesla Dojo)存在嚴(yán)重的故障傳播問題。
2022 年Google發(fā)布TPU v4 集群,首次采用光交換方案(Optical Circuit Switch,以下簡稱“OCS”),這種交換機(jī)-GPU混合的HBD在互連成本與系統(tǒng)擴(kuò)展性之間采取了折中方案,但仍存在故障爆炸半徑問題,其成本和容錯能力仍不甚理想。
在此背景下,曦智科技聯(lián)手北京大學(xué)、階躍星辰的研究團(tuán)隊提出了一種以光交換(OCS)模組為中心的高帶寬域架構(gòu)InfiniteHBD,通過在光電轉(zhuǎn)換模組中集成OCS能力,InfiniteHBD實(shí)現(xiàn)了動態(tài)可重構(gòu)的單點(diǎn)對多點(diǎn)連接,具備節(jié)點(diǎn)級故障隔離和低資源碎片化的能力。
InfiniteHBD在可擴(kuò)展性和成本上全面優(yōu)于現(xiàn)有方案:InfiniteHBD的單位成本僅為NVL72的31%,GPU冗余率比NVL72和TPUv4低一個數(shù)量級,且與NVIDIA DGX(單機(jī)8卡)相比,模型算力利用率最高提升3.37 倍。
該方案以論文形式被國際通信網(wǎng)絡(luò)領(lǐng)域頂級會議SIGCOMM 2025[1]接收。
曦智科技在集成硅光領(lǐng)域擁有十余年的產(chǎn)業(yè)經(jīng)驗(yàn),在InfiniteHBD 方案中,創(chuàng)新性的開發(fā)了基于硅光子技術(shù)的分布式光交換dOCS(distributed Optical Circuit Switch),將基于馬赫曾德(MZI,Mach-Zehnder Interferometer)交換矩陣的光交換芯片集成到商用QSFP-DD 800Gbps光電轉(zhuǎn)換模組中,大幅簡化了器件結(jié)構(gòu)的同時,有效提升了器件集成度,從而降低了成本和功耗,顯著提升了InfiniteHBD 的性價比和系統(tǒng)可擴(kuò)展性。
分布式光交換方案對于建設(shè)超大規(guī)模訓(xùn)練集群具有以下收益:
dOCS自帶光電轉(zhuǎn)換,提供交換能力的同時可形成跨機(jī)超節(jié)點(diǎn);
光交換芯片采用成熟制程,降低了對于先進(jìn)制程電交換芯片的依賴;
光交換芯片對協(xié)議不敏感,適用于當(dāng)前GPU連接協(xié)議碎片化的現(xiàn)狀
InfiniteHBD為高帶寬域架構(gòu)的高效擴(kuò)展提供了新的解決方案,為下一代萬億參數(shù)大模型訓(xùn)練的基礎(chǔ)設(shè)施建設(shè)帶來了重要啟示。 注釋: [1]SIGCOMM,Special Interest Group on Data Communication,即數(shù)據(jù)通信專業(yè)組,是ACM(美國計算機(jī)協(xié)會)組織在通信網(wǎng)絡(luò)領(lǐng)域的旗艦會議。今年的SIGCOMM 將于9 月8日-11日在葡萄牙科英布拉舉行。
關(guān)于曦智科技
曦智科技是全球領(lǐng)先的光電混合算力提供商。公司憑借在集成光子領(lǐng)域的開創(chuàng)性技術(shù)和全球頂尖的集成電路技術(shù)研發(fā)團(tuán)隊,致力于在計算需求爆發(fā)的時代,為客戶提供一系列算力躍遷解決方案,與客戶共建更智能、更可持續(xù)的世界。曦智科技從光子矩陣計算(oMAC)、片上光網(wǎng)絡(luò)(oNOC)和片間光網(wǎng)絡(luò)(oNET)三大核心技術(shù)出發(fā),打造光子計算和光子網(wǎng)絡(luò)兩大產(chǎn)品線,與大數(shù)據(jù)、云計算、金融、自動駕駛、生物醫(yī)藥、材料研究等領(lǐng)域客戶開展緊密合作,持續(xù)為客戶提供更具創(chuàng)造性的高效算力支撐。
-
加速器
+關(guān)注
關(guān)注
2文章
825瀏覽量
38978 -
算力
+關(guān)注
關(guān)注
2文章
1165瀏覽量
15500 -
大模型
+關(guān)注
關(guān)注
2文章
3060瀏覽量
3894
原文標(biāo)題:曦科技|基于分布式光交換高帶寬域InfiniteHBD:破局超節(jié)點(diǎn)擴(kuò)展瓶頸
文章出處:【微信號:曦智科技,微信公眾號:曦智科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
分布式光伏電力問題層出不窮?安科瑞分布式光伏運(yùn)維系統(tǒng)來“救場”

分布式光伏發(fā)運(yùn)維系統(tǒng)實(shí)際應(yīng)用案例分享

分布式光伏運(yùn)維困境如何破?安科瑞光伏運(yùn)維云平臺來支招

淺談分布式光伏系統(tǒng)在工業(yè)企業(yè)的設(shè)計及應(yīng)用

分布式光伏如何重塑社區(qū)能源生態(tài)

基于ptp的分布式系統(tǒng)設(shè)計
分布式、域控及SOA架構(gòu)車身功能測試方案

分布式光伏監(jiān)控系統(tǒng)在能源領(lǐng)域中的重要性

分布式光伏為企業(yè)帶來哪些便捷!

淺談屋頂分布式光伏發(fā)電技術(shù)的設(shè)計與應(yīng)用

一文講清什么是分布式云化數(shù)據(jù)庫!
安科瑞分布式光伏監(jiān)控系統(tǒng)的應(yīng)用

分布式光伏發(fā)電對低壓電網(wǎng)的影響與對策

安科瑞分布式光伏系統(tǒng)在某重工企業(yè)18MW分布式光伏中應(yīng)用

評論