電子發燒友網報道(文 / 吳子鵬)時至 2025 年,在專項政策扶持、旺盛算力需求以及跨行業多元應用的共同推動下,AI(人工智能)技術展現出前所未有的增長潛力。根據市場調研機構 IDC 的統計數據,2024 年全球 AI IT 總投資已達 3158 億美元,預計到 2028 年將進一步增長至 8159 億美元,期間年復合增長率高達 32.9%。
AI 算力集群作為 AI IT 投資中的關鍵組成部分,正通過 Scale Up(縱向擴展)和 Scale Out(水平 / 橫向擴展)兩種方式不斷擴大規模。為滿足萬億甚至十萬億參數規模的 AI 大模型訓練需求,萬卡級、十萬卡級別的 AI 算力集群已成為行業主流配置。然而,在構建大規模 AI 算力集群的過程中,行業面臨著諸多典型挑戰。比如,英偉達公司NVLink 和 InfiniBand 技術雖然在 Scale Up和 Scale Out方面具有一定的性能優勢,但其作為專有協議也構建起了生態壁壘,將算力卡與擴展技術深度綁定,顯著提高了算力布局的準入門檻。
為進一步釋放大規模 AI 算力集群的發展潛能,打破專有技術的封閉生態已迫在眉睫,同時還需兼顧高性能、低功耗與可擴展性等關鍵指標。超以太網聯盟(UEC)和 UALink 聯盟(UAC)通過制定開放規范,將碎片化的互連技術整合為統一框架。這種標準化舉措不僅減少了重復研發投入,更有效提升了行業整體運營效率。在此背景下,新思科技(Synopsys)推出的業界首款超以太網和 UALink IP 解決方案,憑借開放標準、高性能設計以及生態協同優勢,為大規模 AI 集群提供了可擴展、高可靠的互連基礎,有望成為下一代 AI 基礎設施的核心技術。
開放標準:提升 AI 算力集群效率的關鍵
對于 AI 算力集群而言,算力芯片是最基本的計算單元。然而,算力芯片需求的發展與先進制程之間出現了嚴重的演進速度不匹配問題。算力芯片主要服務于 AI 模型領域,該領域參數量大約每 4 至 6 個月便會翻一番;而先進制程遵循摩爾定律,晶體管數量約每 18 - 24 個月增加一倍,性能同步提升。此外,隨著單顆芯片內集成的計算單元和內存單元日益增多,算力芯片設計不斷突破掩膜尺寸限制。因此,AI 行業迫切需要一種可擴展的解決方案,以應對急劇增長的算力需求。
現代 AI 算力集群普遍采用 “Scale Up + Scale Out” 混合架構。其中,Scale Up 主要用于在算力集群中通過縱向擴展,提升單節點內的計算密度與通信效率。在傳統算力網絡中,每臺服務器即為一個算力節點,但受空間、功耗和散熱條件限制,單臺服務器所能容納的計算芯片數量有限。為此,行業引入超節點(SuperPod)概念,通過 Switch 或交換機組網技術,使單節點不再局限于一臺服務器,而是可由多臺服務器與網絡設備共同組成。
Scale Up 旨在盡可能地增加單節點內的計算資源,而 Scale Out 則致力于突破單節點的算力上限,進行更大規模的橫向擴展,以滿足大模型訓練對計算資源呈指數級增長的需求。對于大模型訓練任務,往往需要數萬至數十萬計算卡協同工作,Scale Out 的優勢在于其理論上具備無限擴展能力,但連接效率對其至關重要。
長期以來,英偉達公司在 “Scale Up + Scale Out” 混合架構領域引領技術發展。在 Scale Up 方向,英偉達擁有 NVLink 和 NVSwitch 兩大核心技術;在 Scale Out 方向,Infiniband(IB)也是主流通信網絡協議之一。但正如前文所述,NVLink、NVSwitch 和 Infiniband 均為專有協議,形成了一定的行業技術壁壘。為打破這一局面,超以太網和 UALink 等開放標準應運而生,重塑 AI 基礎設施的生態格局。
UALink 是一項對標英偉達 NVLink 和 NVSwitch 的關鍵技術,可廣泛適配各類加速器。與 NVLink 相同,UALink 采用 GPU 內部總線傳輸的原生語義 —— 內存語義,支持內存共享功能,能夠優化加速器之間的內存通信。無論是直接連接還是通過交換機連接,UALink 均可實現高效數據傳輸,每通道速度高達 200 Gbps,使每個加速器能夠直接訪問其他加速器的內存。UALink 還是一個低延遲的輕量級協議,并具備同步功能,有助于保障多個加速器之間的一致性,促進系統高效運行。
UALink 技術框圖,圖源:MICRO - 2024 HiPChips 研討會
另外,UALink 還具有兩項顯著優勢特性:支持 Switch 組網,并與 UEC 相輔相成。前者使 AI 行業能夠打造支持 UALink 的交換機,進而構建更高計算性能的超級節點;后者則構建起基于開放標準的生態體系,加速行業從 “少數公司主導” 向 “開放競爭” 模式轉變。憑借這些領先特性,UALink 可使超級節點如同單個加速器般運作,提供高性能、低延時、低功耗的計算性能。
2025 年 4 月,UALink 聯盟正式發布 UALink 1.0 規范,支持每通道 200 GT/s 的雙向數據速率,信號速率達 212.5 GT/s,單個 UALink 1.0 系統支持連接多達 1024 個 AI 加速器,并通過 UALink 交換機連接,為每個 AI 加速器分配一個端口和 10 - bit 唯一標識符,以實現精準路由。
在 Scale Out 方向,超以太網聯盟致力于創建 “基于以太網的完整通信堆棧架構”,用超以太網傳輸協議替代基于以太網的 RoCE 協議,從而提高網絡吞吐量、降低延遲,增強網絡的可靠性與穩定性,這對于提升 Scale Out 的可擴展性至關重要。
超以太網集群圖,圖源:新思科技
以太網是當前全球應用最廣泛的局域網技術,其技術標準由 IEEE 的 802.3 標準制定。UEC 采用專為 AI 和 HPC 應用設計的下一代傳輸協議,對以太網進行重新定義。超以太網從物理層、鏈路層、傳輸層、軟件層等多個層面改進以太網技術,具備 FEC(前向糾錯)統計、鏈路層重傳(LLR)、多路徑報文噴發、新一代擁塞控制、靈活排序、端到端遙測、交換機卸載等關鍵功能。例如,在傳輸層,超以太網支持選擇性重傳、無序傳送、數據包噴射和高級擁塞控制機制,提供可靠有序交付(ROD)、可靠無序交付(RUD)和不可靠無序交付(UUD)等多種傳輸模式。
超以太網技術框圖,圖源:UEC
雖然超以太網與 InfiniBand 均是專為 AI 和 HPC 領域研發的網絡通信技術,但超以太網憑借開放標準,促進了廣泛的技術融合以及不同制造商和設備間的聯合創新。同時,以太網龐大的供應商生態體系有助于 AI 行業降低算力門檻,使中小型企業也能以較低成本參與 AI 硬件市場競爭。
業界首款 UALink 和超以太網 IP 解決方案
超以太網和 UALink 技術的誕生,實現了不同廠商加速器的高效互連,避免了生態綁定問題。已發布的 UALink 1.0 標準和 UEC 就緒(UEC - ready)規范,共同構建起下一代 AI 基礎設施的互連框架。
作為超以太網聯盟(UEC)和 UALink 聯盟(UAC)的活躍成員,新思科技推出業界首款超以太網 IP 和 UALink IP 解決方案,旨在滿足下一代大規模 AI 算力集群在高帶寬、低延遲互連方面的迫切需求。
業界首款 UALink 和超以太網 IP 解決方案,圖源:新思科技
新思科技 UALink IP 解決方案集成了控制器、物理層(PHY)和驗證 IP,專為數據密集型 AI 工作負載設計,具備低延遲、高帶寬和先進的內存共享能力。該方案是一套面向 AI 加速器和交換機的全集成解決方案,滿足 UALink 規范的完整硬件安全要求,可實現每通道 200 Gbps 的最大吞吐量,為擴展至 1024 個 AI 加速器的超級節點提供強大的帶寬支持。
新思科技超以太網 IP 解決方案由 MAC(媒體訪問控制)、PCS(物理編碼子層)控制器、物理層(PHY)以及驗證 IP 組成,并采用經硅驗證的新思科技 112G/224G PHY IP,以提升可靠性,為連接百萬節點構建大規模 AI 擴展網絡提供超低延遲和高帶寬連接。這一完整的超以太網接口棧通過 112Gbps 和 224Gbps SerDes(串行器 / 解串器)進行信息傳輸,支持 4×400G、2×800G 和 1.6T 以太網速率。
同時,新思科技超以太網 IP 解決方案支持不斷演進的 IEEE 802.3 和 OIF - 224G 電氣標準,滿足 chip - to - chip、chip - to - module 以及長距離銅纜 / 背板互連的性能要求。該方案中包含以太網 PCS 的 RS - FEC(里德 - 所羅門前向糾錯)功能、前饋均衡器 (FFE) 以及低抖動鎖相環(PLL),有效提升了信號傳輸的穩定性。
更為關鍵的是,新思科技 UALink IP 解決方案和超以太網 IP 解決方案基于經硅驗證的成熟技術,結合該公司在接口技術領域數十年的豐富經驗,并嚴格遵循不斷發展的行業開放標準,能夠幫助開發人員有效降低研發風險。截至目前,新思科技已經能夠為 AI 和 HPC 等前沿應用提供豐富的高速接口 IP 組合,涵蓋 PCIe 7.0、1.6T 以太網、CXL、HBM、UCIe 以及最新的超以太網和 UALink 方案,充分釋放下一代 AI 基礎設施的發展潛能。
結語
大規模 AI 算力集群的發展已步入技術躍遷的關鍵階段。面對專有技術形成的生態壁壘以及指數級增長的算力需求,開放標準正以革新者的姿態重塑行業格局。超以太網與 UALink 通過標準化互連框架,在打破技術壟斷的同時,憑借高性能、低功耗和可擴展特性,為萬卡、十萬卡級集群的算力協同提供了堅實的底層支撐。新思科技推出的業界首款超以太網與 UALink IP 解決方案,依托經硅驗證的技術積累與對開放標準的深度契合,不僅為 AI 加速器與交換機的高效互聯奠定了硬件基礎,更通過生態協同效應降低了創新門檻,助力中小企業參與算力基建競爭,推動行業從 “少數巨頭主導” 向 “多元開放創新” 模式加速演進。
-
摩爾定律
+關注
關注
4文章
640瀏覽量
79871 -
Synopsys
+關注
關注
2文章
160瀏覽量
90731
發布評論請先 登錄


電力電子中的“摩爾定律”(1)

深入解讀新思科技UALink和超以太網IP解決方案

石墨烯互連技術:延續摩爾定律的新希望
摩爾定律是什么 影響了我們哪些方面
新思科技推出超以太網與UALink IP解決方案
新思科技推出業界首款連接大規模AI加速器集群的超以太網和UALink IP 解決方案
后摩爾定律時代,提升集成芯片系統化能力的有效途徑有哪些?
以太網和TCP/IP的關系解析
高算力AI芯片主張“超越摩爾”,Chiplet與先進封裝技術迎百家爭鳴時代

評論