在人工智能迅速發展的今天,大模型訓練已成為推動技術進步的核心動力。然而,隨著大模型規模的不斷擴大和訓練需求的增加,智算網絡面臨的挑戰也日益嚴峻。網絡作為連接計算集群的重要基礎設施,其性能直接影響著AI訓練的效率和效果。
智算網絡的主流架構
目前智算網絡的領域的兩大主流架構:InfiniBand 和RoCEv2 在性能、成本、通用性等多個關鍵維度上展現出各自的優勢,相互競爭。我們將細致分析這兩種架構的技術特性、它們在 AI 智算網絡中的應用場景,以及各自的優勢和局限性。
InfiniBand
InfiniBand 網絡主要通過子網管理器(Subnet Manager,簡稱 SM)來進行集中管理。SM 通常部署在子網內的某臺服務器上,充當網絡核心控制器。通過 SM 的集中控制,InfiniBand網絡實現了拓撲發現、路徑優化、故障恢復等功能的自動化,保障高性能與高可靠性。

RoCEv2
RoCE(RDMA over Converged Ethernet)協議是一種能在以太網上進行 RDMA(Remote Direct Memory Access 遠程內存直接訪問)的集群網絡通信協議。RoCEv1作為鏈路協議層,要求通信雙方位于同一二層網絡內。而RoCEv2 則為網絡層協議,它采用以太網網絡層和 UDP 傳輸層,取代了 InfiniBand 的網絡層,從而提供了更為優秀的可擴展性。與 InfiniBand 網絡的集中管理方式不同,RoCEv2 采用的是純分布式架構,通常由兩層構成,在擴展性和部署靈活性方面具有顯著優勢。

智算網絡中的負載均衡與流量控制
AI大模型時代下,數據中心與智算網絡,如Spine-Leaf架構,拓撲規整,選路簡易。就網絡流量模式而言,GPU服務器間常存在多條并行路徑,如Fat tree網絡中會有數十條。
如何在這些路徑中實現負載均衡路由,成為智算中心路由設計的核心挑戰。
InfiniBand網絡的負載均衡和流控機制
InfiniBand網絡通過多層次技術協同,實現了高效的數據傳輸與資源管理。在負載均衡方面,子網管理器(SM)作為核心調度者,首先基于最短路徑算法構建初始路由表,為流量分布奠定基礎。盡管SM的動態路徑優化能根據鏈路負載實時調整路徑,但其對控制帶寬和計算資源的消耗不容忽視。為進一步提升靈活性,自適應路由(AR)技術應運而生,允許交換機基于隊列深度、擁塞情況等實時狀態獨立選擇路徑,既降低了延遲,又增強了網絡可靠性。
然而,AR的動態特性可能導致數據包亂序,這需要上層協議或應用進行額外處理。為彌補單一路徑的局限性,應用程序還可通過創建多個隊列對(QP),利用硬件隊列的并行傳輸能力分散流量,例如MPI庫或Lustre存儲中間件通過任務分配避免路徑瓶頸,形成應用層與網絡層的雙重負載均衡。
負載均衡機制的高效運行,離不開底層流控機制的強力支撐。InfiniBand采用信用令牌(credit)系統,在每條鏈路上預設緩沖區,確保發送端僅在確認接收端資源充足時傳輸數據,從根本上避免了緩沖區溢出或丟包問題。與此同時,網絡還結合逐包自適應路由技術,為每個數據包獨立選擇傳輸路徑,實時響應擁塞、延遲等狀態變化。這種細粒度的動態調整能力,不僅與信用令牌機制形成互補,更在超大規模網絡中實現了資源的實時優化配置,使負載均衡從局部擴展到全局。
由此可見,InfiniBand通過負載均衡與流控機制的深度耦合,構建了一個兼具敏捷性、可靠性與擴展性的高性能網絡架構。
RoCE網絡的負載均衡和流控機制

負載均衡技術
1、基于流(Flow-based)
ECMP(Equal Cost Multi Path)是一種路由技術,用于在IP交換網絡中實現負載均衡。即等價多路徑路由,當存在多條到達同一個目的地址的相同開銷的路徑,網絡設備按照自有的Hash根據流量N元組計算多路徑下一跳。由于通用計算以“多流”、“小流”為主,能夠實現較好的負載均衡效果。
當AIDC中的大象流連續到達交換機,傳統Hash通常會將大象流集中在少數鏈路上傳輸,龐大的數據流占用相當大的帶寬資源,導致傳輸鏈路發生擁塞,而其他鏈路上則處于空閑。這種Hash不均導致了鏈路負載不均,進而出現擁塞和時延加劇。
2、基于包(Packet based)
隨機包噴灑(Random Packet Spraying,RPS)是一種基于包級別的負載均衡策略。當交換機發現有多條等價路徑指向同一目的地址時,RPS會將數據包以單個包為單位分散到這些路徑上。與ECMP不同,RPS以數據包為單位進行操作,將同一流中的不同數據包轉發到不同的等價路徑上。
RPS的優點在于簡單易實施,通過細粒度的負載均衡,可以在多條并行路徑之間實現較為均衡的路由選擇,提升端到端的網絡吞吐率,可以將并行鏈路利用率提高到90%以上。缺點在于可能會造成同一個流的包亂序問題,所以這種方式必須要解決亂序問題。
3、基于流片(Flowlet)
Flowlet是根據流中的“空閑”時間間隔將一個流劃分為若干片段。在一個Flowlet內,數據包在時間上緊密連續;而兩個Flowlet之間,存在較大的時間間隔。這一間隔遠大于同一流分片內數據包之間的時間間隔,足以使兩個流分片通過不同的網絡路徑傳輸而不發生亂序。

4、基于遙測的路由
為了將包、flowlet或整個流調度到不同的路徑上,需要路由協議的控制。傳統的路由協議,基于靜態的網絡信息來計算最優路徑,如OSPF基于網絡帶寬計算最短路徑,BGP根據AS-PATH長度計算ECMP等。這種控制與網絡實際負載脫節,需要加以改進,星融元提出的基于遙測的路由(Int-based Routing)技術結合OSPF、BGP和在網遙測(INT)技術,為網絡中任意一對節點之間計算多條路徑,每個路徑的開銷是動態測量的延遲,從而能夠根據實時的網絡負載進行路由,從而充分利用每個路徑的帶寬。

流控機制
1、優先流控制(PFC)是一種逐跳流控策略,通過合理配置水位標記來充分利用交換機的緩存,以實現以太網絡中的無丟包傳輸。當下游交換機端口的緩存過載時,該交換機就會向上游設備請求停止傳輸。已發送的數據則會存儲在下游交換機的緩存中,等到緩存恢復正常,端口將會請求恢復數據包的發送,從而維持網絡的流暢運行。
【參考白皮書:https://asterfusion.com/priority-based_flow_control_pfc/ 】
2、顯式擁塞通知(ECN)定義了一種基于 IP 層和傳輸層的流量控制和端到端擁塞通知機制。通過在交換機上向服務器端傳遞特定擁塞信息,然后服務器端再發送至客戶端通知源端降速從而實現擁塞控制的目的。
【參考技術手冊:https://asterfusion.com/t20250416-ecn/ 】
3、數據中心量化擁塞通知(DCQCN)是顯式擁塞通知(ECN)和優先流控制(PFC)兩種機制的結合,旨在支持端到端的無損以太網通信。
對比項 | InfiniBand | RoCEv2 |
流控機制 | 基于Credit的流控機制 | PFC/ECN,DCQCN等 |
轉發模式 | 基于Local ID轉發 | 基于IP轉發 |
負載均衡模式 | 逐包的自適應路由 | ECMP方式路由、基于包(Packet based)、基于流片(Flowlet)、基于遙測的路由 |
故障恢復 | Self-Healing Interconnect Enhancement for Intelligent Datacenters | 路由收斂 |
網絡配置 | 通過UFM實現零配置(按端口收費) | 手工配置、或基于開放網絡技術實現的 EasyRoCE |
技術選型
根據前文我們了解到,InfiniBand和RoCEv2是兩種支持RDMA的高性能網絡協議,但其負載均衡機制在實現方式、性能和應用場景上存在顯著差異:
- InfiniBand依賴專用硬件和動態自適應路由,通過子網管理器實時優化路徑,實現超低延遲和高吞吐,但成本高且擴展受限,適合HPC/AI等極致性能場景;
- RoCEv2基于以太網,采用靜態ECMP哈希多路徑分發,成本低、擴展性強,但依賴無損網絡配置(如PFC/ECN),易受哈希不均影響,適合云數據中心等性價比優先場景。
雖然RoCE還是很難應對大象流/老鼠流分布不均的影響,但是各廠家也在做各種努力嘗試。
WCMP
結合前文,ECMP技術將包、Flowlet或整個流均勻的分布到多個路徑上,很大程度上忽略了不同路徑上的實際負載。為了進一步提升網絡利用率。星融元采用加權代價多路徑(Weighted Cost Multiple Path)算法,基于遙測獲取的時延等信息,在時延更低的路徑上調度更多的流量,在時延更高的路徑上調度更少的流量,從而實現所有路徑的公平利用。在理想情況下,流量經過不同路徑的總時延是相等的,可充分利用所有可用帶寬。
星融元CX864E等超級以太網交換機通過支持Flowlet、基于遙測的路由以及WCMP(加權代價多路徑)三大創新技術,將AI訓練和推理網絡的利用率提升至90%以上,從而加速AI訓練和推理過程,為AI數據中心進一步節省建設成本和運營成本。

【參考文檔】
- https://www.c114.com.cn/other/241/a1270305.html
- https://mp.weixin.qq.com/s?__biz=MzAxNzU3NjcxOA==&mid=2650751430&idx=1&sn=bffa26e57db61c930c8eb2c71b902706&chksm=82a06995994e62a7391df4a0bcf047c0c332c395773964c283a3e9b814db15ced8720f450753#rd
- https://baijiahao.baidu.com/s?id=1800081227247028165&wfr=spider&for=pc
- https://blog.csdn.net/weixin_38889300/article/details/140366370
-
InfiniBand
+關注
關注
1文章
30瀏覽量
9325 -
負載均衡
+關注
關注
0文章
117瀏覽量
12512
發布評論請先 登錄
負載均衡器的誕生和工作機制

基于動態負載均衡的網絡監控系統
InfiniBand,InfiniBand是什么意思
基于蟻群優化的任務負載均衡調度算法

基于圖非均衡劃分的SDN異構控制器負載優化部署方法

基于流量矩陣的負載均衡路由機制
華為云在Kubernetes大規模場景下的Service性能優化實踐

Apacheproxy負載均衡和Session復制

深入探索InfiniBand網絡、HDR與IB技術

評論