電子發燒友網綜合報道,隨著大語言模型(LLM)參數規模突破萬億級,傳統數據中心網絡架構(如NVL、TPUv4、SiP-Ring)逐漸暴露出瓶頸。
傳統方案依賴昂貴的交換機(如NVIDIA的NVLink Switch)或光學電路(如TPUv4的OCS),其成本隨集群規模呈指數級增長。例如,NVLink Switch單臺成本高達數萬美元,且僅支持單節點級擴展(如DGX H100集群最多8-GPU互聯)。TPUv4雖采用光學環形網絡,但其OCS交換機需定制化光纖布線,限制了跨Pod級擴展能力。
由于拓撲限制,單個GPU故障可能引發級聯失效。以SiP-Ring為例,其靜態環形拓撲要求所有節點嚴格同步,若某一節點故障,整個TP組需重新初始化,導致GPU浪費率高達37%(TP-64場景)。NVL架構中,單節點故障甚至會中斷全局通信,迫使作業暫停重試。
跨ToR(Top of Rack)通信也成為網絡架構的性能瓶頸。研究顯示,GPT-3訓練任務中35%的通信流量為跨機架傳輸,導致網絡擁塞,帶寬利用率不足40%。傳統Fat-Tree拓撲雖支持高帶寬,但其樹狀結構易在核心層形成熱點,限制了大規模并行效率。
為了解決這些問題,最近,曦智科技聯合北京大學、階躍星辰的研究團隊提出了一種以光交換(OCS)模組為中心的高帶寬域架構InfiniteHBD。InfinitePOD通過無交換機架構設計 、動態拓撲編排算法和光通信技術優化 ,系統性解決了現有的問題。
InfinitePOD采用分布式節點直連網絡,每個GPU節點配備QSFP-DD OCSTrx光模塊(51.2Tbps帶寬),通過預定義光纖鏈路實現跨ToR的3跳內直連。可以省去專用交換機,僅使用標準化光模塊,單節點互連成本下降60%。
同時物理層支持任意規模集群互聯,實驗驗證可擴展至65536 GPU,遠超NVL(16384 GPU)和TPUv4(單Pod級)。在拓撲靈活性上,通過軟件動態配置通信組,支持K-Hop Ring(環形)和K-Hop Line(線性)等拓撲,適配TP、DP、PP等不同并行策略。
InfinitePOD采用了兩階段部署機制,首先是物理層預定義,在部署階段規劃節點間3跳光纖連接,形成Rail-Optimized拓撲,減少跨機架流量;在運行時動態編排,基于圖切割算法(Graph Partitioning)和貪心策略,實時調整通信組拓撲。
容錯機制上,當GPU故障時,編排算法自動重構通信路徑,僅隔離故障節點而不影響全局。實驗表明,在TP-64場景下,GPU浪費率從NVL的24%降至11%,作業中斷概率降低72%。
在光通信技術上,InfinitePOD采用QSFP-DD OCSTrx光模塊,光模塊基于曦智科技硅光子技術的分布式光交換dOCS,將基于馬赫曾德(MZI,Mach-Zehnder Interferometer)交換矩陣的光交換芯片集成到商用QSFP-DD 800Gbps光電轉換模組中,大幅簡化了器件結構的同時,有效提升了器件集成度,從而降低了成本和功耗,顯著提升了InfiniteHBD的性價比和系統可擴展性。
同時采用Rail-Optimized拓撲,針對機架間通信優化,通過3跳內光纖直連實現流量局部化 ,AllReduce帶寬利用率提升至77.26%,接近理論極限。
InfinitePOD的核心價值在于將光通信技術與分布式架構深度融合 ,通過“硬件簡化+軟件智能”的設計理念,重新定義了高帶寬數據中心網絡。盡管當前方案仍需解決長距離光信號衰減和模塊功耗問題,但其開創性的設計已為下一代數據中心網絡指明方向——去中心化、軟硬協同、極致擴展 。
-
光通信
+關注
關注
20文章
924瀏覽量
34475
發布評論請先 登錄
突破精度極限,賦能光通信未來——武漢昊衡科技OLI光纖微裂紋檢測儀引領行業革新

六博光電船載激光通信系統:開啟水上高速通信新紀元

六博光電支持OpenVLC推出高性價比可見光通信模組

光通信網絡故障排除技巧
光通信網絡的優勢分析
光通信與電通信的區別
光通信在數據中心的應用
基于ptp的分布式系統設計
分布式、域控及SOA架構車身功能測試方案

光放大器與光通信的關系是什么
量子光通信的概念和原理
WDM系統和光通信有哪些區別
簡述光通信的發展歷史
一體式IO與分布式IO:工業控制系統的兩種架構

水下光通信都能應用于哪些場景呢?

評論