近期,由博通、思科、Arista、微軟、Meta等國(guó)際頂級(jí)半導(dǎo)體、設(shè)備和云廠商牽頭成立的超以太網(wǎng)聯(lián)盟(UEC)在OCP Global Summit上對(duì)外公布其最新進(jìn)展——UEC規(guī)范1.0的預(yù)覽版本。讓我們一睹為快吧!
UEC 旨在提出一種“升級(jí)版”的以太網(wǎng)通信協(xié)議棧用以應(yīng)對(duì)AI智算、HPC等領(lǐng)域?qū)DMA網(wǎng)絡(luò)的性能挑戰(zhàn)——當(dāng)前大規(guī)模計(jì)算節(jié)點(diǎn)互聯(lián)場(chǎng)景下主要有InfiniBand和基于以太網(wǎng)協(xié)議的RoCE兩大技術(shù)路線。有關(guān)IB和RoCE協(xié)議棧的詳盡對(duì)比可參閱:
[高性能網(wǎng)絡(luò)傳輸:RoCE與IB協(xié)議棧對(duì)比解析]
相比較為封閉的IB架構(gòu),以太網(wǎng)在互操作性和帶寬成本上的優(yōu)勢(shì)已在市場(chǎng)層面得到了廣泛認(rèn)可,尤其是大規(guī)模的AI算力中心場(chǎng)景。當(dāng)前全球TOP500的超級(jí)計(jì)算機(jī)中RoCE和IB的占比相當(dāng),以端口帶寬總量計(jì)算,IB占比為39.2%,RoCE已達(dá)48.5%。
盡管IB和RoCE在高性能傳輸?shù)膿砣刂?、QoS皆有應(yīng)對(duì)設(shè)計(jì),但也暴露出一些缺陷。例如亂序需要重傳、不夠完美的負(fù)載分擔(dān)、Go-back-N問題,DCQCN 部署調(diào)優(yōu)復(fù)雜等等。
面向GPU Scale-out網(wǎng)絡(luò)的UEC 1.0 規(guī)范從軟件API、運(yùn)輸層到鏈路層以及網(wǎng)絡(luò)安全和擁塞控制皆有涉及,較傳統(tǒng)RDMA網(wǎng)絡(luò)有了大量改進(jìn),我們將挑出重點(diǎn)介紹。
什么是超級(jí)以太網(wǎng)系統(tǒng)
一個(gè)超級(jí)以太網(wǎng)系統(tǒng)的組成如下。一個(gè)集群(Cluster)由節(jié)點(diǎn)(Node)和網(wǎng)絡(luò)(Fabric)組成,節(jié)點(diǎn)通過網(wǎng)卡(Fabric Interface)連接到網(wǎng)卡,一個(gè)網(wǎng)卡中可以有多個(gè)邏輯的網(wǎng)絡(luò)端點(diǎn)(Fabric End Point,F(xiàn)EP)。網(wǎng)絡(luò)由若干平面(Plane)組成,每個(gè)平面是多個(gè)FEP的集合,通常通過交換機(jī)互聯(lián)。
超以太網(wǎng)協(xié)議棧概覽
? 物理層與傳統(tǒng)以太網(wǎng)完全兼容,可選支持FEC(前向糾錯(cuò))統(tǒng)計(jì)功能
? 鏈路層可選支持鏈路層重傳(LLR),并支持包頭壓縮,為此擴(kuò)展了LLDP的協(xié)商能力
? 網(wǎng)絡(luò)層依然是IP協(xié)議,沒有變化
? 傳輸層是全新的,作為UEC協(xié)議棧的核心數(shù)據(jù)包傳輸子層(Packet Delivery)和消息語義子層(Message Semantics)。包傳輸子層實(shí)現(xiàn)新一代擁塞控制、靈活的包順序等功能,消息語義子層支持xCCL和MPI等消息。可選支持安全傳輸。另外,在網(wǎng)集合通信(In Network Collective,INC)也在這一層實(shí)現(xiàn)
? ** 軟件API層** 。提供UEC擴(kuò)展的Libfabrics 2.0
物理層
UEC 1.0規(guī)范下的物理層與傳統(tǒng)以太網(wǎng)(符合IEEE802.3標(biāo)準(zhǔn))完全兼容,支持每通道100Gbps和200Gbps速率,在此基礎(chǔ)上實(shí)現(xiàn)800Gbps和更高的端口速率。
另外可選支持物理層性能指標(biāo)統(tǒng)計(jì)功能(PHY metrics)。這些指標(biāo)基于 FEC 碼字進(jìn)行計(jì)算,不受流量模式和鏈路利用率的影響。估計(jì)算法基于FEC錯(cuò)誤計(jì)數(shù)器的數(shù)據(jù),從而得出不可糾正錯(cuò)誤率(UCR )和數(shù)據(jù)包錯(cuò)誤平均間隔(MTBPE)。這些指標(biāo)衡量了物理層的傳輸性能和可靠性,用于上層的遙測(cè)和擁塞控制等。為了支持新的 UEC 鏈路層功能,UEC規(guī)范中也對(duì)協(xié)調(diào)子層(RS)進(jìn)行了相應(yīng)的修改。
鏈路層
UEC鏈路層最大的變化是引入了LLR(Link Level Retry)協(xié)議。它可以讓以太網(wǎng)不依賴PFC,實(shí)現(xiàn)無損傳輸。
LLR 機(jī)制是基于幀的。每個(gè)幀都分配了一個(gè)序列號(hào),接收端成功接收這一幀后,檢查幀的序列號(hào)是否符合預(yù)期,如果正確,發(fā)送確認(rèn)消息(ACK),如果發(fā)現(xiàn)幀亂序或者丟失,則發(fā)送否定確認(rèn)消息 (NACK)。發(fā)送端具有超時(shí)機(jī)制,用于保證在 NACK 丟失時(shí)重傳。
傳輸層:UET,新一代協(xié)議棧的核心
前文提過,傳統(tǒng)的RDMA網(wǎng)絡(luò)傳輸層(包括IB和RoCE)在多路徑傳輸、負(fù)載分擔(dān)、擁塞控制以及參數(shù)調(diào)優(yōu)等方面存在著不足之處。隨著AI/HPC集群規(guī)模增長(zhǎng),網(wǎng)絡(luò)的確定性和可預(yù)測(cè)性越來越困難,需要全新的方法來解決。
UEC傳輸層(UEC Transport Layer,簡(jiǎn)稱UET)運(yùn)行在IP和UDP協(xié)議之上, 支持實(shí)現(xiàn)以下幾大技術(shù)目標(biāo):
? 支持高達(dá) 100 萬個(gè) GPU/TPU 的算力集群
? 往返時(shí)間低于 10μs
? 單接口帶寬800Gbps及以上
? 網(wǎng)絡(luò)利用率超過85%
選擇性重傳
(Selective Retransmit)
傳統(tǒng)傳輸協(xié)議,如TCP需要嚴(yán)格的傳輸順序,并采用了Go-Back-N機(jī)制。而一個(gè)RDMA消息通常包含多個(gè)數(shù)據(jù)包,只要有一個(gè)數(shù)據(jù)包錯(cuò)誤,則從這個(gè)數(shù)據(jù)包起的所有數(shù)據(jù)包都要重傳。這讓偶爾的傳輸錯(cuò)誤被放大,加劇了網(wǎng)絡(luò)擁塞。UEC采用選擇性重傳機(jī)制,僅傳輸錯(cuò)誤的數(shù)據(jù)包。
亂序交付
(Out-of-Order Delivery)
UET不僅支持有序傳輸,也支持無序傳輸。這是因?yàn)楝F(xiàn)代網(wǎng)絡(luò)中通常有多路徑存在,同一個(gè)流的數(shù)據(jù)包經(jīng)過不同路徑傳輸,就可能造成亂序。如果還要求嚴(yán)格的順序傳輸,就無法利用多路徑來實(shí)現(xiàn)負(fù)載分擔(dān)。此外,選擇性重傳也需要無序傳輸?shù)闹С?。為了?shí)現(xiàn)無序傳輸,需要接收方有更大的數(shù)據(jù)包緩沖區(qū),從而將亂序的數(shù)據(jù)包組成一個(gè)完整的RDMA消息。
UET支持四種傳輸方式:
? ROD (Reliable Ordered Delivery)
– 需要擁塞控制、有序、可靠、無重傳(依舊采用Go-Back-N)
? RUD (Reliable Unordered Delivery)
– 需要擁塞控制、無序、可靠、無重傳
? RUDI (RUD for Idempotent Operations)
– 可選擁塞控制、無序、可靠、重傳
? UUD (Unreliable Unordered Delivery)
– 可選擁塞控制、無序、不可靠、重傳
包噴灑
(Packet Spraying)
包噴灑是一種基于包的多路徑傳輸。由于傳統(tǒng)傳輸協(xié)議不支持無序傳輸,同一個(gè)數(shù)據(jù)流必須按照同一個(gè)路徑傳輸,否則就會(huì)造成亂序,引發(fā)重傳。而在AI/HPC應(yīng)用中,存在大量的“大象流”,它們數(shù)據(jù)量大、持續(xù)時(shí)間長(zhǎng),如果能使用多路徑傳輸一個(gè)流,將顯著提高整個(gè)網(wǎng)絡(luò)的利用率。
由于支持了RUD,UET就可以將同一個(gè)流的不同包分散到多個(gè)路徑上同時(shí)傳輸,實(shí)現(xiàn)包噴灑功能。這讓交換機(jī)可以充分發(fā)揮ECMP甚至WCMP(Weighted Cost Multi- Pathing)路由能力,將去往同一目的地的數(shù)據(jù)包通過多條路徑發(fā)送,大幅度提高網(wǎng)絡(luò)利用率。
擁塞控制
(Congestion Control)
UET 擁塞控制包含以下重要特性,由端側(cè)硬件和交換機(jī)配合完成,有效減小了尾部延遲。
? **Incast管理。**它用于解決集合通信(Collective)中下行鏈路上的扇入問題。AI和HPC應(yīng)用經(jīng)常采用集合通信在多個(gè)節(jié)點(diǎn)之間同步信息,當(dāng)多個(gè)發(fā)送者同時(shí)向一個(gè)接收者發(fā)送流量,就會(huì)產(chǎn)生Incast擁塞。
? **速率調(diào)整加速。**現(xiàn)有的擁塞控制算法,在發(fā)生網(wǎng)絡(luò)擁塞后調(diào)整速率的過程較長(zhǎng),而 UET 可以快速上升到線速。方法是測(cè)量端到端延遲來調(diào)節(jié)發(fā)送速率,以及根據(jù)接收方的能力通知發(fā)送方調(diào)整速率。
? **基于遙測(cè)。**源自網(wǎng)絡(luò)的擁塞信息可以通告擁塞的位置和原因,縮短擁塞信令路徑并向終端節(jié)點(diǎn)提供更多信息,從而實(shí)現(xiàn)響應(yīng)速度更快的擁塞控制。
? 基于包噴灑的自適應(yīng)路由 。當(dāng)擁塞發(fā)生時(shí),通過包噴灑技術(shù)將流量重新路由到其它路徑上,繞過擁塞點(diǎn)。
端到端的安全
UEC在傳輸層內(nèi)置安全。它是基于作業(yè)(Job)的,可以對(duì)整個(gè)作業(yè)的流量進(jìn)行端到端的AES加密,充分利用 IPSec 和PSP(Packet Security Protocol)的能力,減小安全加密的開銷,提供可擴(kuò)展安全域,并且可以由硬件卸載。
在網(wǎng)計(jì)算
(In Network Collectives)
在網(wǎng)計(jì)算最早應(yīng)用在HPC集群,業(yè)界主要有兩個(gè)思路,一是基于網(wǎng)卡的,二是基于交換機(jī)。
UEC V1.0 的目標(biāo)是后者,即將集合操作卸載到各級(jí)交換機(jī)上完成,避免過多的收發(fā)次數(shù),降低節(jié)點(diǎn)交互頻率和處理時(shí)延開銷,減少約一半數(shù)據(jù)傳輸量,從而加速All-Reduce操作。
在部署實(shí)現(xiàn)上,目前AI智算領(lǐng)域唯一大規(guī)模商用的案例僅有英偉達(dá)的SHARP(在ASIC層面實(shí)現(xiàn)的硬件加速),以太網(wǎng)設(shè)備廠家仍處在探索階段,例如將算力內(nèi)置于交換機(jī)或外接,甚至P4可編程都是可能的思路方向。
軟件層:Extended Libfabrics 2.0
在軟件層,UEC提供簡(jiǎn)化的API。它簡(jiǎn)化了RDMA操作,并為AI和HPC應(yīng)用提供專用的API,如xCCL, MPI, PGAS和OpenShmem等。
硬件升級(jí):支持UEC的交換機(jī)和網(wǎng)卡
UEC在規(guī)范中定義了支持超級(jí)以太網(wǎng)交換機(jī)的架構(gòu),可以看到大體是繼承了SONiC的架構(gòu)。這部分的主要關(guān)注在于控制平面上支持INC和SDN控制器;數(shù)據(jù)平面升級(jí)了SAI(Switch Abstraction Interface)API調(diào)用硬件提供的INC等能力。
UEC同樣定義了網(wǎng)絡(luò)端點(diǎn)(Fabric End Point)的軟硬件架構(gòu)。在硬件層,網(wǎng)卡升級(jí)支持UEC功能。在操作系統(tǒng)內(nèi)核態(tài),實(shí)現(xiàn)網(wǎng)卡驅(qū)動(dòng)。在用戶態(tài),基于libfabric擴(kuò)展實(shí)現(xiàn)INC管理等功能,支持上層的xCCL/MPI/SHMEM等應(yīng)用。
總的來說,UEC v1.0規(guī)范重構(gòu)了數(shù)據(jù)中心以太網(wǎng)以完全替代傳統(tǒng)的RDMA網(wǎng)絡(luò),用更高的性能、更低的成本實(shí)現(xiàn)穩(wěn)定可靠、具有百萬節(jié)點(diǎn)的AI/HPC集群。
星融元RoCE交換機(jī)與UEC
作為UEC成員單位,星融元提供的超低時(shí)延RoCE交換機(jī)(CX-N系列)全系采用高性能的標(biāo)準(zhǔn)白盒網(wǎng)絡(luò)硬件,搭載為生產(chǎn)環(huán)境深度調(diào)優(yōu)的企業(yè)級(jí)SONiC發(fā)行版——多項(xiàng) Easy RoCE 特性,全面兼容現(xiàn)有規(guī)范并提供靈活、廣大的升級(jí)空間,未來將平滑演進(jìn)與新一代以太網(wǎng)標(biāo)準(zhǔn)保持同步。
[搶先圍觀!星融元51.2T 800G RoCE交換機(jī)測(cè)試]
審核編輯 黃宇
-
以太網(wǎng)
+關(guān)注
關(guān)注
40文章
5465瀏覽量
172821 -
通信
+關(guān)注
關(guān)注
18文章
6075瀏覽量
136475 -
網(wǎng)絡(luò)
+關(guān)注
關(guān)注
14文章
7600瀏覽量
89302 -
RDMA
+關(guān)注
關(guān)注
0文章
78瀏覽量
8986
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
Qorvo在手機(jī)RF和Wi-Fi 7技術(shù)上的最新進(jìn)展及市場(chǎng)策略
FF將發(fā)布FX品牌最新進(jìn)展
Qorvo在射頻和電源管理領(lǐng)域的最新進(jìn)展
小鵬汽車圖靈芯片及L4自動(dòng)駕駛新進(jìn)展
芯片和封裝級(jí)互連技術(shù)的最新進(jìn)展
高燃回顧|第三屆OpenHarmony技術(shù)大會(huì)精彩瞬間
5G新通話技術(shù)取得新進(jìn)展
定義AI Agent四大核心能力,榮耀I(xiàn)FA劇透端側(cè)AI創(chuàng)新進(jìn)展
![定義AI Agent四大核心能力,榮耀I(xiàn)FA劇透端側(cè)AI創(chuàng)<b class='flag-5'>新進(jìn)展</b>](https://file1.elecfans.com//web2/M00/06/BE/wKgaombe7b6AAloGAADcm1KXKdQ989.jpg)
江淮汽車攜手華為,共繪超豪華智能電動(dòng)車新篇章
藍(lán)牙技術(shù)聯(lián)盟專訪:信馳達(dá)藍(lán)牙數(shù)字鑰匙方案持續(xù)創(chuàng)新,助推智慧汽車生態(tài)發(fā)展
廣東的5G-A、信號(hào)升格和低空經(jīng)濟(jì),又有新進(jìn)展!
![廣東的5G-A、信號(hào)升格和低空經(jīng)濟(jì),又有<b class='flag-5'>新進(jìn)展</b>!](https://file.elecfans.com/web2/M00/43/7B/pYYBAGJ-B6aAHuNPAAAf8J1Ebk4778.jpg)
百度首席技術(shù)官王海峰解讀文心大模型的關(guān)鍵技術(shù)和最新進(jìn)展
![百度首席技術(shù)官王海峰解讀文心大模型的關(guān)鍵技術(shù)和<b class='flag-5'>最新進(jìn)展</b>](https://file1.elecfans.com/web2/M00/CD/1C/wKgaomYgddKAG-uTAAAOKd5w0Gw262.jpg)
官網(wǎng)上線!4月16日-17日,揭秘百度Create大會(huì)“AI公開課”
四個(gè)50億+,多個(gè)半導(dǎo)體項(xiàng)目最新進(jìn)展!
清華大學(xué)在電子鼻傳感器仿生嗅聞方向取得新進(jìn)展
![清華大學(xué)在電子鼻傳感器仿生嗅聞方向取得<b class='flag-5'>新進(jìn)展</b>](https://file1.elecfans.com/web2/M00/C0/40/wKgZomXUFXaANaUQAADpKXTqcuo484.jpg)
評(píng)論