人工智能(AI),特別是大規模模型訓練和推理,正以前所未有的方式重塑數據中心網絡。傳統的“盡力而為”網絡架構,在處理海量、突發的AI數據洪流時捉襟見肘。AI模型對網絡性能的嚴苛要求——高帶寬、低延遲、零丟包——迫使網絡必須進行一場深刻的智能進化,從被動的基礎設施轉變為理解業務、感知狀態、智能決策的“AI感知網絡”。
AI業務訴求:對傳統網絡架構的挑戰
AI集群(如GPU/TPU服務器)間的通信呈現出典型的“大象流”特征,流量總量巨大、并發連接少、單條流帶寬極高(可達數百Gbps)。這與傳統數據中心中“數量多、帶寬小”的“老鼠流”模式截然不同。傳統均衡技術失效,逐流ECMP依賴Hash算法在少量大流上極易導致嚴重負載不均,特定路徑擁塞而其他路徑閑置。Flowlet 對路徑時延差異敏感,配置參數(如Gap值)難以適應動態變化的網絡環境,全局信息缺失導致效果打折。逐包ECMP亂序問題嚴重,嚴重影響GPU計算效率。AI訓練任務(如AllReduce)具有全局同步特性。任何一條關鍵路徑上的擁塞、丟包或高延遲,都會導致整個計算集群“空等”,顯著拖慢任務完成時間(Job Completion Time, JCT),直接影響業務效率和資源成本。
RoCE交換機(SONiC-Based)選用的動態智能選路創新方案結合了逐流 ECMP 均衡和基于子流 flowlet 均衡提出動態WCMP(Weighted Cost Multipath)和基于flowlet 的 ALB(Auto Load Balancing),下面將介紹具體相關技術。
網絡智能進化:為AI而生的核心技術
網絡態勢實時感知:高精度測量的基石

- 帶內網絡遙測INT(納秒級):? 采用HDC(高延遲捕獲)技術。當數據包在交換機內部經歷超過設定閾值的延遲時,該數據包的前150字節及關鍵元數據(入口/出口端口、精確時延)會被復制并發送給分析器(如交換機CPU)。這提供了前所未有的微突發流量和隊列擁塞的洞察能力。

動態智能選路技術在星融元交換機上開啟 HDC 功能,并將 CPU 作為 HDC 的收集分析器,通過分析 HDC 報文實現高精度測量交換機轉發時延,并將時延信息作為路徑質量評價因子,提高路徑質量評價精度。

命令行配置 HDC 功能控制INT進程運行,之后通過 socket 連接進行收包循環,將收取到的報文進行解析并將關鍵信息(出入端口、轉發時延等)寫入數據庫。
全局路徑智能評估與同步
感知到的數據需要轉化為對整網路徑質量的統一認知。
- BGP擴展社區屬性傳遞路徑質量:? 創新性地擴展BGP協議(數據中心廣泛部署的底層路由協議),定義新的Path Bandwidth Extended Community屬性。該屬性攜帶一個綜合評估路徑質量的浮點數值(單位GB/s),通過BGP Update報文在整網擴散。
路徑質量同步算法邏輯如下圖所示:

動態智能選路技術將兩層 Leaf-Spine 組網中的交換機端口分為了三類:Leaf 上行口、Leaf 下行口和 Spine口,每種類型端口賦予不同的計算系數,且每種端口的計算系數可配。
- 異常路徑主動剔除:? 設定質量閾值。綜合質量過低的路徑(如擁塞嚴重、時延過高)被判定為“異常路徑”并暫時剔除,避免其拖累整體性能,待其恢復后重新引入。

智能負載決策與執行:動態WCMP + Flowlet ALB
基于實時感知的全局路徑視圖,執行層實現精細化流量調度:
動態WCMP(加權多路徑):?
- 核心思想:? 不再是ECMP的“平均主義”,而是根據每條路徑的實時綜合質量動態計算權重(如質量比38:80對應權重比3:7)。
- 效果:? 將流量按比例引導到當前最優的路徑上,最大化利用可用帶寬,避免擁塞熱點。權重隨網絡狀態變化而動態調整。

基于Flowlet的自動負載均衡(ALB):?
- 作為ECMP的智能增強器:? 在ECMP選定的下一跳組內,ASIC芯片實時監測組內各出端口的瞬時負載和隊列時延。
- 微秒級智能調度:? 當一個Flowlet(具有自然間隙的數據包子流)到達時,ALB將其動態分配到組內當前負載最輕或時延最低的物理端口上。高負載/高時延端口會被臨時跳過。
- 故障自愈:? 支持端口級Fail-over,鏈路故障時自動觸發流量重分布。

多租戶支持:網絡虛擬化(VRF)
AI云平臺需要支持多租戶隔離。
- VRF隔離:? 為不同用戶/租戶分配獨立VRF路由表。
- 基于源IP的流量分類:? 利用ASIC的PRE-ACL能力,根據GPU網段源IP自動將流量劃入對應的租戶VRF進行查表轉發,確保租戶間嚴格隔離。

智能網絡賦能AI業務場景
化解流量洪峰:動態WCMP的威力
- 場景:? 256 x 400G GPU集群,1:1收斂比Leaf-Spine架構。Server1 GPU1 -> Server17 GPU1的大象流。
- 傳統ECMP困境:? Hash沖突可能導致所有大象流涌向同一Spine,造成Leaf1上行口擁塞丟包,拖慢整個訓練任務

動態智能選路方案:?
- Server17 GPU1的BGP路由攜帶Leaf17->GPU1質量宣告。
- Spine疊加自身->Leaf17質量后宣告給Leaf1。
- Leaf1疊加自身->Spine質量,匯總所有到GPU1路徑的質量。
- Leaf1剔除劣質路徑,基于剩余路徑質量動態計算WCMP權重(如3:7)。
- 流量按最優比例分發到多條Spine路徑,避免單點擁塞,保障大象流順暢。
業務價值:? 防止關鍵路徑擁塞,穩定JCT,提升GPU集群整體利用率。
Flowlet ALB優化ECMP
- 場景:? 在Leaf1到Spine的ECMP組內,某條鏈路突發微擁塞導致時延升高。

Flowlet ALB作用?
- ASIC實時檢測到該出端口負載/時延超標。
- 后續到達的Flowlet被自動引導至組內其他負載正常/時延低的端口。
- 擁塞端口被暫時“規避”,待其負載/時延恢復正常后,Flowlet將再次被分配至此端口。
業務價值:? 消除微突發導致的局部擁塞和抖動,優化端到端時延,提升GPU計算效率。
AI時代的網絡,已不再是簡單的連通管道。星融元CX-N系列RoCE交換機所代表的動態感知 + 智能決策(動態WCMP) + 精準執行(Flowlet ALB) 架構,標志著網絡向“AI感知網絡”的深刻進化。這種進化以保障AI業務性能為核心目標,通過實時感知網絡狀態、智能評估路徑質量、動態調整流量分布,有效化解了傳統網絡在AI負載下的性能瓶頸,為大規模AI訓練和推理提供了穩定、高效、無損的網絡基石,釋放AI的真正潛力。
-
AI
+關注
關注
88文章
34592瀏覽量
276312 -
負載均衡
+關注
關注
0文章
120瀏覽量
12553
發布評論請先 登錄
高德發布AI導航智能體:高速駕車場景下可感知車道級交通流變化

評論