北京時間11月21日凌晨,英偉達發布本季度財報,公司實現營收350.8億美元,同比增長93.6%,好于彭博一致預期(332億美元)。公司收入增長,主要受數據中心業務需求增長的帶動。在AI等需求的帶動下,2025財年第三季度英偉達的數據中心業務在公司收入中的份額繼續擴大,本季度達到了87.7%。
(Source:海豚投研)
細分來看,數據中心業務中計算收入為276億美元,同比增長132%;網絡收入為31億美元,同比增長20%,這得益于益于Ethernet for AI,其中包括Spectrum X端到端以太網平臺。據統計,AI網絡NVIDIA Spectrum-X以太網AI收入同比增長超過3倍。
就在不久前,AI網絡產業剛爆出了一項大新聞。馬斯克僅用了122天就塑造了xAI 位于田納西州孟菲斯市的 Colossus 超級計算機集群,該集群使用10萬張NVIDIA Hopper GPU加速卡,超過1500個GPU機架,堪稱全球最大AI超級計算機集群。
實際上,該集群使用了 NVIDIA Spectrum-X 以太網網絡平臺,該平臺是專為多租戶、超大規模的 AI 工廠提供卓越性能而設計的 RDMA網絡而并不是InfiniBand網絡。
NVIDIA聲稱專門面向 AI 的 Spectrum-X 以太網網絡具有先進的功能,可在提供高效、可擴展的帶寬的同時,實現低延遲和短尾延遲,而這些功能之前是 InfiniBand 網絡所獨有的。
NVIDIA基于 AI 的 Spectrum-X 以太網系統是一整套AI Networking的全家桶組合包括需要購買Spectrum-X交換機、Bluefield SuperNIC以及相關光模塊及線纜組件。
基于以太網的Spectrum-X特性
我們根據超大以太網集群所面臨的通信挑戰來了解下基于以太網的Spectrum-X方案如何優化基于以太網的RDMA功能。
部分內容結合Nvidia AI Networking Whitepaper 編譯
基于以太網的NVIDIA Spectrum-X:專為生成式AI時代設計
AI云作為支持生成式AI工作負載的新型數據中心類別,正日益受到業界的關注。這類數據中心不僅繼承了傳統云的核心功能,如多租戶支持、安全性保障和多樣化的工作負載支撐,更在支持更大規模的生成式AI應用方面展現出卓越能力。生成式AI是一類基于訓練數據生成新輸出的人工智能算法,其以圖像、文本、音頻等多種形式創造全新內容,與旨在識別模式和進行預測的傳統人工智能系統形成鮮明對比。 NVIDIA Spectrum-X構建了以太網多租戶、超大規模AI云而精心設計的革命性解決方案,它完美契合了生成式AI時代的發展需求。
無損網絡與RDMA
在有損網絡環境中,數據傳輸過程中面臨著丟失或質量下降的風險。這種網絡傾向于優先考慮數據傳輸的速度而非準確性。然而,對于AI應用而言,丟包導致的后果可能是災難性的,包括性能下降、GPU資源的空閑浪費以及功耗的額外開銷。
圖1:GPU-GPU的RDMA通信實現示意圖
無損網絡則完全改變了這一局面。在這種網絡中,數據傳輸的完整性得到嚴格保障,所有數據包都能夠準確無誤地到達目的地。盡管以太網最初的設計確實允許一定的丟包率,但在InfiniBand網絡中,無損是基本要求。
隨著GPU計算和大規模AI應用場景在云環境中的廣泛應用,以太網也通過采用RoCE(RDMA over Converged Ethernet)和基于優先級的流量控制(PFC,Priority Flow Control)等技術,結合無損網絡的實現,使用NVIDIA Spectrum-X,為AI應用提供了更加可靠和高效的解決方案。 遠程直接內存訪問(RDMA,Remote Direct Memory Access)技術的出現,進一步提升了網絡傳輸的效率。它允許數據在遠程系統、GPU和存儲器之間直接傳輸,無需經過CPU的干預。傳統的網絡傳輸方式涉及多個復雜的步驟,包括數據的復制、網絡發送以及接收方的多步驟處理。而RDMA則直接跨越了這些繁瑣的中間環節,實現了數據的高效傳輸。我們在之前的Kiwi Talks有敘述過目前RDMA面對大規模集群存在的問題及建議。
挑戰與方案1:自適應路由、多路徑與數據包噴灑
傳統數據中心的應用程序通常會產生大量的小數據流,這使得網絡流量的統計平均值能夠反映整體情況。在這種背景下,基于簡單靜態哈希的路由算法,如等價多路徑(ECMP,Equal Cost Multi-Path),足以應對常見的網絡流量問題。
然而,人工智能工作負載的特性卻截然不同。它們通常會產生少量的大數據流,被稱為“大象流”(elephant flows)。這些大象流會占用大量的鏈路帶寬,如果多個大象流被路由到同一鏈路,就會導致嚴重的擁塞和高延遲。在人工智能應用中,即使是在非阻塞拓撲中使用ECMP,大象流之間的碰撞幾率也非常高。由于AI作業的性能高度依賴于最壞情況下的表現,這些碰撞會導致模型訓練時間既超出預期又變得極為不穩定。
圖2:NVIDIA:Spectrum-X以太網自適應路由的細粒度數據包示意圖
因此,NVIDIA引入自適應路由算法來動態平衡網絡中的數據傳輸。此外,路由的精細度也至關重要,以避免大象流之間的碰撞。即使按流量進行路由,仍然存在擁塞的可能性。然而,當采用數據包噴灑(Packet Spraying)技術,即按每個數據包進行路由時,數據包可能會以無序的方式到達目的地。為了實現數據包粒度的自適應路由,我們需要建立靈活的重新排序機制,確保自適應路由對應用程序來說是透明的。
挑戰與方案2:擁塞控制
在繁忙的多租戶AI云環境中,不同AI作業并行運行時,網絡擁塞問題往往難以避免。尤其是當大量發送方試圖向單一目的地或不同目的地(這些目的地可能已受到其它應用背景流量的影響)傳輸數據時,網絡擁塞現象尤為顯著。這種擁塞不僅會導致延遲飆升和有效帶寬急劇縮減,還可能引發網絡“熱點”的擴散,造成相鄰租戶的相互干擾,即受害者效應。
圖3:NVIDIA:Spectrum-X以太網擁塞控制與交換機和NVIDIA BlueField SuperNIC協同工作
傳統的擁塞控制方法,如顯式擁塞通知(ECN,Explicit Congestion Notification),在支持生成式AI的以太網環境中顯得捉襟見肘。為了有效緩解擁塞,負責數據傳輸的網絡設備(如NIC或DPU)必須進行精確的流量控制。然而,ECN機制在交換機緩沖區接近滿載時才開始發揮作用,此時接收方會通知發送方限制其發送速率。但在大規模AI模型常見的突發流量場景下,這種延遲的擁塞反饋可能導致緩沖區迅速填滿,進而引發丟包問題。盡管深度緩沖交換機能夠降低緩沖區溢出的風險,但它們引入的額外延遲卻削弱了擁塞控制的初衷。
實現高效的擁塞控制需要交換機與網卡NIC之間的緊密協作。NVIDIA Spectrum-X通過利用Spectrum-4交換機的帶內、硬件加速的遙測數據,為BlueField-3 SuperNIC提供實時的流量計量信息。
挑戰與方案3:性能隔離與安全性多租戶環境如AI云,必須確保各個作業之間的性能隔離,以免受到其它作業的網絡流量干擾。遺憾的是,許多以太網ASIC設計在性能隔離方面考慮不足。這導致某些作業在面臨“近鄰干擾”(noisy neighbor)(即向同一端口發送流量的相鄰作業)時,其有效帶寬可能會急劇下降。 以太網網絡在設計時還需考慮網絡公平性。AI云應支持多種異構應用程序的混合運行。由于不同應用程序可能使用不同大小的數據幀,如果沒有適當的隔離優化措施,大數據幀可能會占用過多的帶寬資源,導致小數據幀傳輸受阻。
實現性能隔離和防止“近鄰干擾”的關鍵在于采用共享數據包緩沖區。通過為所有作業提供平等的緩存訪問權限,共享緩沖區能夠確?;旌螦I云工作負載的穩定性和低延遲。
圖4:強調通用共享數據包緩沖區架構與分割緩沖區實現之間重要性
除了從帶寬角度考慮性能隔離外,我們還應認識到性能隔離與零信任架構對于多租戶環境網絡安全的重要性。數據無論是在靜止狀態還是傳輸過程中,都需要得到嚴格的保護。高效的加密和認證工具能夠在不犧牲性能的前提下提供強大的安全保障。BlueField-3 DPU集成了安全引導功能,為基于硬件的信任根提供了堅實基礎,并支持MACsec和IPsec等協議用于數據加密,以及AES-XTS 256/512等加密算法用于靜態數據的保護。
以上是英偉達對基于以太網Spectrum-X解決方案的部分優勢特性總結;
UEC 超以太聯盟對標 NVIDIA Spectrum
我們已經了解UEC是專門為AI網絡Scale -out互聯成立的國際聯盟,目的是全面優化RDMA的功能,從而實現更大規模的AI網絡集群的高效運作。
UEC 主要在Transport Layer傳輸層做了全面的優化,不限于消息語義優化、數據包傳輸、擁塞控制及可靠性安全性等目前大規模集群擴展需要優化的功能。
UEC支持自適應路由及數據包噴灑
超以太聯盟下一代的Modernized RDMA將支持多路徑傳輸的數據包噴灑技術,從而優化自適應路由。UEC支持了RUD,UET就可以將同一個流的不同包分散到多個路徑上同時傳輸,實現包噴灑功能。這讓交換機可以充分發揮ECMP甚至WCMP(Weighted Cost Multi- Pathing)路由能力,將去往同一目的地的數據包通過多條路徑發送,大幅度提高網絡利用率。
(來源:AMD)
UEC將支持端到端遙測Telemetry
新的UEC對于擁塞做出了優化機制:來自網絡的擁塞信息可以向參與者提供擁塞的位置和原因。縮短擁塞信號路徑并向端點提供更多信息,能夠實現更快速的擁塞控制。無論是發送方還是接收方安排傳輸,現代交換機都可以通過快速傳遞準確的擁塞信息給調度器或起搏器pacer,促進響應式的擁塞控制,從而提高擁塞控制算法的響應速度和準確性。結果是減少了擁塞、降低了丟包率和縮短了隊列長度——所有這些為改善尾部延遲提供了服務。
UEC支持安全性與加密
UEC傳輸協議從設計之初就融入了網絡安全概念,能夠加密并驗證AI訓練或推理作業中計算端點間發送的所有網絡流量。UEC傳輸協議借鑒了現代加密方法(如IPSec和PSP)中用于高效會話管理、認證和保密的核心技術。隨著作業規模的擴大,必須在不使主機和網絡接口的會話狀態急劇膨脹的前提下支持加密。為此,UET(UEC傳輸)引入了新的密鑰管理機制,允許成千上萬個參與同一作業的計算節點之間高效共享密鑰。它被設計成能在AI訓練和推理所要求的高速和大規模下高效實現。托管在大型以太網網絡上的高性能計算(HPC)作業具有類似的特征,同樣需要相當的安全機制。這意味著UEC傳輸不僅能滿足AI領域的需求,也能適應HPC環境中對于安全性和性能的嚴格要求,確保數據在大規模網絡中的傳輸既高效又安全。
UEC成員Arista公司表示,“當PCI總線因主機CPU上的競爭工作負載或降速等原因出現擁塞時,通常需要使用ECN(顯式擁塞通知)標記。Arista在實現ECN標記方面經驗豐富,可以對經過擁塞隊列的數據包進行標記。此外,該公司還支持即將推出的多種網絡內遙測(In-Network Telemetry)技術,它們能提供更細粒度的網絡擁塞隊列深度信息,從而全面支持網絡內遙測。這項新技術預計將與超以太網的網卡和未來的RDMA一起發揮更大作用?!?/p>
-
數據中心
+關注
關注
16文章
4858瀏覽量
72381 -
AI
+關注
關注
87文章
31517瀏覽量
270333 -
英偉達
+關注
關注
22文章
3847瀏覽量
91972
原文標題:AI網絡熱點 | NVIDIA Spectrum X如何推動英偉達網絡業務實現31億美元收入
文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論