在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

InfiniBand與RoCEv2負載均衡機制的技術梳理與優化實踐

星融元Asterfusion ? 2025-04-17 17:46 ? 次閱讀

人工智能迅速發展的今天,大模型訓練已成為推動技術進步的核心動力。然而,隨著大模型規模的不斷擴大和訓練需求的增加,智算網絡面臨的挑戰也日益嚴峻。網絡作為連接計算集群的重要基礎設施,其性能直接影響著AI訓練的效率和效果。

智算網絡的主流架構

目前智算網絡的領域的兩大主流架構:InfiniBand 和RoCEv2 在性能、成本、通用性等多個關鍵維度上展現出各自的優勢,相互競爭。我們將細致分析這兩種架構的技術特性、它們在 AI 智算網絡中的應用場景,以及各自的優勢和局限性。

InfiniBand

InfiniBand 網絡主要通過子網管理器(Subnet Manager,簡稱 SM)來進行集中管理。SM 通常部署在子網內的某臺服務器上,充當網絡核心控制器。通過 SM 的集中控制,InfiniBand網絡實現了拓撲發現、路徑優化、故障恢復等功能的自動化,保障高性能與高可靠性。

wKgZPGgAy7mAZWYhAAHeVdfDBzY521.pngInfiniBand網絡架構示意圖(來源:2023智算中心網絡架構白皮書)

RoCEv2

RoCE(RDMA over Converged Ethernet)協議是一種能在以太網上進行 RDMA(Remote Direct Memory Access 遠程內存直接訪問)的集群網絡通信協議。RoCEv1作為鏈路協議層,要求通信雙方位于同一二層網絡內。而RoCEv2 則為網絡層協議,它采用以太網網絡層和 UDP 傳輸層,取代了 InfiniBand 的網絡層,從而提供了更為優秀的可擴展性。與 InfiniBand 網絡的集中管理方式不同,RoCEv2 采用的是純分布式架構,通常由兩層構成,在擴展性和部署靈活性方面具有顯著優勢。

wKgZPGgAy8-Ab3zoAASGXkh-Cm0427.pngRoCEv2網絡架構示意圖(來源:2023智算中心網絡架構白皮書)

智算網絡中的負載均衡與流量控制

AI大模型時代下,數據中心與智算網絡,如Spine-Leaf架構,拓撲規整,選路簡易。就網絡流量模式而言,GPU服務器間常存在多條并行路徑,如Fat tree網絡中會有數十條。

如何在這些路徑中實現負載均衡路由,成為智算中心路由設計的核心挑戰。

InfiniBand網絡的負載均衡和流控機制

InfiniBand網絡通過多層次技術協同,實現了高效的數據傳輸與資源管理。在負載均衡方面,子網管理器(SM)作為核心調度者,首先基于最短路徑算法構建初始路由表,為流量分布奠定基礎。盡管SM的動態路徑優化能根據鏈路負載實時調整路徑,但其對控制帶寬和計算資源的消耗不容忽視。為進一步提升靈活性,自適應路由(AR)技術應運而生,允許交換機基于隊列深度、擁塞情況等實時狀態獨立選擇路徑,既降低了延遲,又增強了網絡可靠性。

然而,AR的動態特性可能導致數據包亂序,這需要上層協議或應用進行額外處理。為彌補單一路徑的局限性,應用程序還可通過創建多個隊列對(QP),利用硬件隊列的并行傳輸能力分散流量,例如MPI庫或Lustre存儲中間件通過任務分配避免路徑瓶頸,形成應用層與網絡層的雙重負載均衡。

負載均衡機制的高效運行,離不開底層流控機制的強力支撐。InfiniBand采用信用令牌(credit)系統,在每條鏈路上預設緩沖區,確保發送端僅在確認接收端資源充足時傳輸數據,從根本上避免了緩沖區溢出或丟包問題。與此同時,網絡還結合逐包自適應路由技術,為每個數據包獨立選擇傳輸路徑,實時響應擁塞、延遲等狀態變化。這種細粒度的動態調整能力,不僅與信用令牌機制形成互補,更在超大規模網絡中實現了資源的實時優化配置,使負載均衡從局部擴展到全局。

由此可見,InfiniBand通過負載均衡與流控機制的深度耦合,構建了一個兼具敏捷性、可靠性與擴展性的高性能網絡架構。

RoCE網絡的負載均衡和流控機制

wKgZPGgAzBCATLjDAAMPbqpG9Ls979.png負載均衡機制

負載均衡技術

1、基于流(Flow-based)

ECMP(Equal Cost Multi Path)是一種路由技術,用于在IP交換網絡中實現負載均衡。即等價多路徑路由,當存在多條到達同一個目的地址的相同開銷的路徑,網絡設備按照自有的Hash根據流量N元組計算多路徑下一跳。由于通用計算以“多流”、“小流”為主,能夠實現較好的負載均衡效果。

當AIDC中的大象流連續到達交換機,傳統Hash通常會將大象流集中在少數鏈路上傳輸,龐大的數據流占用相當大的帶寬資源,導致傳輸鏈路發生擁塞,而其他鏈路上則處于空閑。這種Hash不均導致了鏈路負載不均,進而出現擁塞和時延加劇。

2、基于包(Packet based)

隨機包噴灑(Random Packet Spraying,RPS)是一種基于包級別的負載均衡策略。當交換機發現有多條等價路徑指向同一目的地址時,RPS會將數據包以單個包為單位分散到這些路徑上。與ECMP不同,RPS以數據包為單位進行操作,將同一流中的不同數據包轉發到不同的等價路徑上。

RPS的優點在于簡單易實施,通過細粒度的負載均衡,可以在多條并行路徑之間實現較為均衡的路由選擇,提升端到端的網絡吞吐率,可以將并行鏈路利用率提高到90%以上。缺點在于可能會造成同一個流的包亂序問題,所以這種方式必須要解決亂序問題。

3、基于流片(Flowlet)

Flowlet是根據流中的“空閑”時間間隔將一個流劃分為若干片段。在一個Flowlet內,數據包在時間上緊密連續;而兩個Flowlet之間,存在較大的時間間隔。這一間隔遠大于同一流分片內數據包之間的時間間隔,足以使兩個流分片通過不同的網絡路徑傳輸而不發生亂序。

wKgZO2gAzH6AOtUfAAEezug1ko4283.png

4、基于遙測的路由

為了將包、flowlet或整個流調度到不同的路徑上,需要路由協議的控制。傳統的路由協議,基于靜態的網絡信息來計算最優路徑,如OSPF基于網絡帶寬計算最短路徑,BGP根據AS-PATH長度計算ECMP等。這種控制與網絡實際負載脫節,需要加以改進,星融元提出的基于遙測的路由(Int-based Routing)技術結合OSPF、BGP和在網遙測(INT)技術,為網絡中任意一對節點之間計算多條路徑,每個路徑的開銷是動態測量的延遲,從而能夠根據實時的網絡負載進行路由,從而充分利用每個路徑的帶寬。

wKgZPGgAzKSACP-aAAj-gIakPGE880.png

流控機制

1、優先流控制(PFC)是一種逐跳流控策略,通過合理配置水位標記來充分利用交換機的緩存,以實現以太網絡中的無丟包傳輸。當下游交換機端口的緩存過載時,該交換機就會向上游設備請求停止傳輸。已發送的數據則會存儲在下游交換機的緩存中,等到緩存恢復正常,端口將會請求恢復數據包的發送,從而維持網絡的流暢運行。

【參考白皮書:https://asterfusion.com/priority-based_flow_control_pfc/ 】

2、顯式擁塞通知(ECN)定義了一種基于 IP 層和傳輸層的流量控制和端到端擁塞通知機制。通過在交換機上向服務器端傳遞特定擁塞信息,然后服務器端再發送至客戶端通知源端降速從而實現擁塞控制的目的。

【參考技術手冊:https://asterfusion.com/t20250416-ecn/ 】

3、數據中心量化擁塞通知(DCQCN)是顯式擁塞通知(ECN)和優先流控制(PFC)兩種機制的結合,旨在支持端到端的無損以太網通信。

對比項InfiniBandRoCEv2
流控機制基于Credit的流控機制PFC/ECN,DCQCN等
轉發模式基于Local ID轉發基于IP轉發
負載均衡模式逐包的自適應路由ECMP方式路由、基于包(Packet based)、基于流片(Flowlet)、基于遙測的路由
故障恢復Self-Healing Interconnect Enhancement for Intelligent Datacenters路由收斂
網絡配置通過UFM實現零配置(按端口收費)手工配置、或基于開放網絡技術實現的 EasyRoCE

技術選型

根據前文我們了解到,InfiniBand和RoCEv2是兩種支持RDMA的高性能網絡協議,但其負載均衡機制在實現方式、性能和應用場景上存在顯著差異:

  • InfiniBand依賴專用硬件和動態自適應路由,通過子網管理器實時優化路徑,實現超低延遲和高吞吐,但成本高且擴展受限,適合HPC/AI等極致性能場景;
  • RoCEv2基于以太網,采用靜態ECMP哈希多路徑分發,成本低、擴展性強,但依賴無損網絡配置(如PFC/ECN),易受哈希不均影響,適合云數據中心等性價比優先場景。

雖然RoCE還是很難應對大象流/老鼠流分布不均的影響,但是各廠家也在做各種努力嘗試。

WCMP

結合前文,ECMP技術將包、Flowlet或整個流均勻的分布到多個路徑上,很大程度上忽略了不同路徑上的實際負載。為了進一步提升網絡利用率。星融元采用加權代價多路徑(Weighted Cost Multiple Path)算法,基于遙測獲取的時延等信息,在時延更低的路徑上調度更多的流量,在時延更高的路徑上調度更少的流量,從而實現所有路徑的公平利用。在理想情況下,流量經過不同路徑的總時延是相等的,可充分利用所有可用帶寬。

星融元CX864E等超級以太網交換機通過支持Flowlet、基于遙測的路由以及WCMP(加權代價多路徑)三大創新技術,將AI訓練和推理網絡的利用率提升至90%以上,從而加速AI訓練和推理過程,為AI數據中心進一步節省建設成本和運營成本。

wKgZPGgAzV-AEtLmAAHPSmMpmnA826.png

【參考文檔】

  • https://www.c114.com.cn/other/241/a1270305.html
  • https://mp.weixin.qq.com/s?__biz=MzAxNzU3NjcxOA==&mid=2650751430&idx=1&sn=bffa26e57db61c930c8eb2c71b902706&chksm=82a06995994e62a7391df4a0bcf047c0c332c395773964c283a3e9b814db15ced8720f450753#rd
  • https://baijiahao.baidu.com/s?id=1800081227247028165&wfr=spider&for=pc
  • https://blog.csdn.net/weixin_38889300/article/details/140366370
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • InfiniBand
    +關注

    關注

    1

    文章

    30

    瀏覽量

    9325
  • 負載均衡
    +關注

    關注

    0

    文章

    117

    瀏覽量

    12512
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    Dubbo路由模塊及負載均衡優化手段

    本文主要介紹在vivo內部針對Dubbo路由模塊及負載均衡的一些優化手段,主要是異步化+緩存,可減少在RPC調用過程中路由及負載均衡的CPU
    的頭像 發表于 11-02 09:56 ?1046次閱讀
    Dubbo路由模塊及<b class='flag-5'>負載</b><b class='flag-5'>均衡</b>的<b class='flag-5'>優化</b>手段

    負載均衡器的誕生和工作機制

    今天我們來深度揭秘一下負載均衡器 LVS 的秘密,相信大家看了你管這破玩意兒叫負載均衡?這篇文章后,還是有不少疑問,比如 LVS 看起來只有類似路由器的轉發功能,為啥說它是四層(傳輸層
    的頭像 發表于 01-04 12:26 ?1262次閱讀
    <b class='flag-5'>負載</b><b class='flag-5'>均衡</b>器的誕生和工作<b class='flag-5'>機制</b>

    基于動態負載均衡的網絡監控系統

    設計企業局域網絡監控系統NetMonitor,該系統基于J2EE技術實現對網絡服務的支持。引入動態負載均衡機制作為集群服務器網絡監控系統的核
    發表于 04-07 08:52 ?31次下載

    InfiniBand,InfiniBand是什么意思

    InfiniBand,InfiniBand是什么意思 InfiniBand架構是一種支持多并發鏈接的“轉換線纜”技術,在這種技術中,每種鏈
    發表于 04-10 11:34 ?1190次閱讀

    HBase負載均衡分析及優化策略

    HBase負載均衡分析及優化策略_黃偉建
    發表于 01-03 17:41 ?0次下載

    基于蟻群優化的任務負載均衡調度算法

    隨著云計算的蓬勃發展,針對云計算中虛擬機負載均衡及任務集完成時間較長的問題,提出了一種基于蟻群優化的任務負載均衡調度算法(WLB-ACO)
    發表于 11-09 14:40 ?2次下載
    基于蟻群<b class='flag-5'>優化</b>的任務<b class='flag-5'>負載</b><b class='flag-5'>均衡</b>調度算法

    基于圖非均衡劃分的SDN異構控制器負載優化部署方法

    大規模軟件定義網絡(SDN)往往需要邏輯上集中的控制器在物理上分布式部署。針對控制器部署中控制器負載均衡的問題,提出一種基于圖非均衡劃分的SDN異構控制器負載
    發表于 12-20 09:55 ?0次下載
    基于圖非<b class='flag-5'>均衡</b>劃分的SDN異構控制器<b class='flag-5'>負載</b><b class='flag-5'>優化</b>部署方法

    基于流量矩陣的負載均衡路由機制

    智慧協同網絡具有能夠實時準確測算流量矩陣的特點。將流量矩陣作為約束,對負載均衡路由優化問題進行建模,利用拉格朗日對偶方法,將原問題轉化為優化目標易實現的對偶問題。為實現對偶問題
    發表于 02-12 11:18 ?0次下載

    華為云在Kubernetes大規模場景下的Service性能優化實踐

    本文檔的主要內容詳細介紹的是華為云在Kubernetes大規模場景下的Service性能優化實踐包括了:1.Kubernetes的Service機制 2.Iptables實現Servi
    發表于 06-21 08:00 ?0次下載
    華為云在Kubernetes大規模場景下的Service性能<b class='flag-5'>優化</b><b class='flag-5'>實踐</b>

    Apacheproxy負載均衡和Session復制

    Apacheproxy負載均衡和Session復制(電源技術交流群)-Apacheproxy負載均衡和Session復制? ? ? ? ?
    發表于 08-31 12:29 ?0次下載
    Apacheproxy<b class='flag-5'>負載</b><b class='flag-5'>均衡</b>和Session復制

    解密負載均衡技術負載均衡算法

    叫做負載均衡的類型。負載均衡算法的種類非常多,包括從簡單的輪詢負載均衡算法到基于響應狀態信息的自
    的頭像 發表于 11-12 09:16 ?1393次閱讀

    InfiniBandRoCEv2網絡簡介及解決方案

    超高帶寬、超低延遲、超高可靠,這是大模型訓練對于網絡的要求。
    的頭像 發表于 09-22 15:47 ?1.1w次閱讀
    <b class='flag-5'>InfiniBand</b>和<b class='flag-5'>RoCEv2</b>網絡簡介及解決方案

    三種數據中心傳輸協議的聯系和差異

    都是為了解決 RoCEv2 的缺陷。(《ROCEv2 RDMA:TCP的變革者還是取代者?》一文介紹了ROCEv2的部署缺陷以及大廠的解決策略)
    的頭像 發表于 11-03 16:41 ?2963次閱讀
    三種數據中心傳輸協議的聯系和差異

    深入探索InfiniBand網絡、HDR與IB技術

    InfiniBand和以太網之間的延遲對比可以分為兩個主要組成部分。首先,在交換機層面上,以太網交換機在網絡傳輸模型中作為第2層設備運行,通常采用MAC表查找尋址和存儲轉發機制(某些產品可能采用
    發表于 04-19 11:01 ?2222次閱讀
    深入探索<b class='flag-5'>InfiniBand</b>網絡、HDR與IB<b class='flag-5'>技術</b>

    華納云:什么是負載均衡?優化資源利用率的策略

    負載均衡是現代計算機網絡架構中不可或缺的一部分,它通過智能分配請求和任務,確保系統資源的高效利用。本文將探討負載均衡的概念、工作原理、優化
    的頭像 發表于 10-28 16:07 ?509次閱讀
    主站蜘蛛池模板: 成人三级在线播放线观看 | 中文字幕一区二区三区四区五区人 | 亚洲美女视频在线观看 | 亚洲精品456 | 免费公开在线视频 | 台湾av| 一级毛片一级黄片 | 国产h视频在线观看网站免费 | 久久最新精品 | 李老汉的性生生活1全部 | 亚洲一区二区在线免费观看 | 日韩特黄毛片 | 色噜噜亚洲精品中文字幕 | 日本午夜大片免费观看视频 | free性乌克兰高清videos | 理论片久久 | 亚洲嫩草影院在线观看 | 看全色黄大色大片免费久久 | 男人边吃奶边做视频免费网站 | 精品成人 | 亚洲爱爱图 | 免费人成网站线观看合集 | 五月婷婷色网 | 美女扒开尿口给男人桶视频免费 | 老师今晚让你爽个够 | 免费人成网ww777kkk手机 | 久久久久女人精品毛片九一 | 午夜精品一区二区三区在线观看 | 天天躁狠狠躁夜躁2021 | 操碰人人 | 中文字幕第11页 | 涩涩高清无乱码在线观看 | 精品国产免费人成高清 | 日本黄大片在线观看 | 色丁香婷婷 | 久久免费视频2 | 日本与大黑人xxxx | 天堂免费在线视频 | 鸥美三级| 国内久久久久高清影视 | 男男生子大肚play做到生 |