AI集群訓(xùn)練過(guò)程中,參數(shù)通過(guò)高速互聯(lián)網(wǎng)絡(luò)在不同的服務(wù)器間進(jìn)行同步交互,這些通信流量具有共同的特征:流量成周期性、流數(shù)量少、流量長(zhǎng)連接、并行任務(wù)間有強(qiáng)實(shí)時(shí)同步性要求,通信效率取決于最慢的節(jié)點(diǎn),并且AI集群訓(xùn)練場(chǎng)景下,傳輸?shù)臄?shù)據(jù)量較大。上述的流量特征導(dǎo)致網(wǎng)絡(luò)較易出現(xiàn)負(fù)載分擔(dān)不均、整網(wǎng)吞吐下降的問(wèn)題,從而影響AI集群訓(xùn)練的性能。
當(dāng)前網(wǎng)絡(luò)均衡的主流技術(shù)有三種,逐流(Flow-based)ECMP均衡、基于子流flowlet均衡和逐包(Packet-based)ECMP均衡。逐流ECMP均衡,是當(dāng)前最為常用的負(fù)載均衡算法,基于流量的五元組進(jìn)行HASH負(fù)載均衡,在流鏈接數(shù)量較多的場(chǎng)景下適用,它優(yōu)勢(shì)在于無(wú)亂序,劣勢(shì)在于流數(shù)量較少時(shí),例如AI訓(xùn)練場(chǎng)景下,存在HASH沖突問(wèn)題,網(wǎng)絡(luò)均衡效果不佳。基于子流flowlet均衡技術(shù),它依賴于子流之間時(shí)間間隔GAP值的正確配置來(lái)實(shí)現(xiàn)均衡,但由于網(wǎng)路中全局路徑級(jí)時(shí)延信息不可知,因此GAP值無(wú)法準(zhǔn)確配置。同時(shí),該技術(shù)存在接收端側(cè)亂序的問(wèn)題。逐包(Packet-based)ECMP均衡,理論上均衡度最好,但實(shí)際在接收端側(cè)存在大量亂序問(wèn)題,現(xiàn)實(shí)中幾乎無(wú)使用案例。
現(xiàn)有創(chuàng)新的網(wǎng)絡(luò)均衡技術(shù)NSLB是面向AI訓(xùn)練場(chǎng)景量身打造的,根據(jù)該場(chǎng)景下的流量特征,將搜集到的整網(wǎng)信息作為創(chuàng)新算路算法的輸入,從而得到最優(yōu)的流量轉(zhuǎn)發(fā)路徑,實(shí)現(xiàn)AI訓(xùn)練場(chǎng)景下整網(wǎng)流量100%的均衡度和AI訓(xùn)練性能的提升。
利用12臺(tái)GPU服務(wù)器(每臺(tái)服務(wù)器包含1塊型號(hào)為Tesla v100S PCIe 32GB的GPU卡),4臺(tái)華為交換機(jī)組成2級(jí)CLOS網(wǎng)絡(luò)(其中2臺(tái)交換機(jī)作為接入層交換機(jī),每臺(tái)下掛6臺(tái)服務(wù)器,使用100GE單端口接入,2臺(tái)交換機(jī)作為匯聚交換機(jī),每臺(tái)與接入層交換機(jī)之間使用6個(gè)100GE端口互聯(lián))的AI訓(xùn)練集群,運(yùn)行開(kāi)源Tensorflow深度學(xué)習(xí)平臺(tái)上的VGG16深度學(xué)習(xí)網(wǎng)絡(luò)模型。以下為采用NSLB技術(shù)運(yùn)行單計(jì)算任務(wù)和多計(jì)算任務(wù)時(shí),AI訓(xùn)練性能的提升結(jié)果。
Ring算法場(chǎng)景,運(yùn)行單個(gè)計(jì)算任務(wù)下,使用NSLB技術(shù)對(duì)比典型ECMP負(fù)載分擔(dān)技術(shù),AI訓(xùn)練集性能最高提升113.41%。
Ring算法場(chǎng)景,運(yùn)行兩個(gè)計(jì)算任務(wù)下,使用NSLB技術(shù)對(duì)比典型ECMP負(fù)載分擔(dān)技術(shù),AI訓(xùn)練集性能最高提升57.29%。
高性能計(jì)算、AI模型訓(xùn)練等應(yīng)用場(chǎng)景,以及數(shù)據(jù)中心網(wǎng)絡(luò)/云網(wǎng)絡(luò)在架構(gòu)上的發(fā)展(資源池化),均要求網(wǎng)絡(luò)傳輸排隊(duì)時(shí)延和吞吐上的進(jìn)一步性能提升。例如,為了保證性能損失在5%以內(nèi),數(shù)據(jù)庫(kù)集群系統(tǒng)要求至少40Gbps的吞吐和3us的網(wǎng)絡(luò)RTT。為了達(dá)到極低時(shí)延的傳輸,應(yīng)當(dāng)盡力降低網(wǎng)絡(luò)設(shè)備上的排隊(duì)時(shí)延,同時(shí)維持接近瓶頸鏈路滿吞吐。
隨著業(yè)務(wù)發(fā)放速度的不斷加快,以及引入了VM、容器等虛擬化技術(shù),網(wǎng)絡(luò)流量的不確定性增加。而當(dāng)前運(yùn)維手段有限,仍然依靠傳統(tǒng)網(wǎng)管和命令行方式進(jìn)行查看、監(jiān)控,分鐘級(jí)的網(wǎng)絡(luò)監(jiān)控已經(jīng)無(wú)法滿足業(yè)務(wù)秒級(jí)體驗(yàn)保障的要求,往往被動(dòng)感知故障。故障發(fā)生后,定位仍主要依賴專家經(jīng)驗(yàn),利用多種輔助工具,逐段定界、逐流分析、抓包定位,效率十分低下。
為了解決上述故障收斂慢的問(wèn)題,提出了一種基于網(wǎng)絡(luò)設(shè)備數(shù)據(jù)面的鏈路故障快速自愈技術(shù),稱為DPFF(Data Plane Fast Failover)。該技術(shù)基于轉(zhuǎn)發(fā)芯片的硬件可編程能力構(gòu)建。DPFF從傳統(tǒng)的基于控制面軟件協(xié)議的收斂方式演進(jìn)到基于數(shù)據(jù)面硬件極速感知故障和快速換路的收斂方式,并且基于數(shù)據(jù)面硬件實(shí)現(xiàn)遠(yuǎn)程通告和快速換路,可達(dá)到亞毫秒級(jí)(<1ms)的收斂速度,將對(duì)業(yè)務(wù)性能的影響降至最低。該技術(shù)為高性能數(shù)據(jù)庫(kù)、存儲(chǔ)以及超算等關(guān)鍵應(yīng)用提供了極致的高可靠性保證和穩(wěn)定性體驗(yàn)。
實(shí)驗(yàn)室采用4臺(tái)華為交換機(jī)組成2級(jí)CLOS網(wǎng)絡(luò)(其中2臺(tái)交換機(jī)作為接入層交換機(jī),每臺(tái)下掛>2臺(tái)服務(wù)器,2臺(tái)交換機(jī)作為匯聚交換機(jī)),利用vdbench 測(cè)試套件,客戶端服務(wù)器與存儲(chǔ)陣列建立兩個(gè)連接,每連接8個(gè)qp,并發(fā)訪問(wèn)8個(gè)SSD磁盤(pán)。通過(guò)拔光纖模擬鏈路故障。256KB message size,16 threads,write IO , 觀察鏈路故障發(fā)送后的IOPS指標(biāo)。
測(cè)試結(jié)論:DPFF方案下鏈路故障對(duì)IOPS性能幾乎沒(méi)有影響,而OSPF協(xié)議收斂方案下IOPS出現(xiàn)多秒跌零情況。
利用Benchmarksql測(cè)試套件進(jìn)行在線事務(wù)處理模型的測(cè)試,又稱TPC-C測(cè)試。統(tǒng)計(jì)每百毫秒周期內(nèi)完成的在線事務(wù)的數(shù)量,通過(guò)查看該數(shù)量值的變化測(cè)試收斂性能對(duì)業(yè)務(wù)性能的影響。模擬鏈路故障,重復(fù)測(cè)試4次, 觀察在線交易事務(wù)受影響情況。
測(cè)試結(jié)論:DPFF收斂方案比傳統(tǒng)的OSPF收斂方案在鏈路故障下,每100ms周期內(nèi)完成交易事務(wù)數(shù)量下降減少60%~80%。
計(jì)算集群網(wǎng)絡(luò)傳統(tǒng)采用CLOS架構(gòu),以業(yè)界常見(jiàn)的64口盒式交換機(jī)為例,3級(jí)CLOS架構(gòu),最大可支持6.5萬(wàn)服務(wù)器接口,不滿足10E級(jí)計(jì)算集群規(guī)模訴求。如果增加網(wǎng)絡(luò)層數(shù)則會(huì)帶來(lái)網(wǎng)絡(luò)跳數(shù)增加,通信時(shí)延不滿足業(yè)務(wù)需求。
業(yè)界針對(duì)該問(wèn)題開(kāi)展了多樣的架構(gòu)研究和新拓?fù)涞脑O(shè)計(jì)。直連拓?fù)湓诔笠?guī)模組網(wǎng)場(chǎng)景下,因?yàn)榫W(wǎng)絡(luò)直徑短,具備低成本、端到端通信跳數(shù)少的特點(diǎn)。以64口盒式交換機(jī)構(gòu)建10萬(wàn)個(gè)節(jié)點(diǎn)超大規(guī)模集群為例,傳統(tǒng)的CLOS架構(gòu)需要部署4層組網(wǎng),端到端通信最大需要跨7跳交換機(jī)。使用無(wú)阻塞直連拓?fù)浣M網(wǎng),端到端交換機(jī)轉(zhuǎn)發(fā)跳數(shù)最少只3跳,交換機(jī)臺(tái)數(shù)(整體投資)下降40%。
采用12臺(tái)GPU服務(wù)器,每臺(tái)服務(wù)器2塊GPU卡,型號(hào)Tesla v100s;2塊CX6-Dx網(wǎng)卡,網(wǎng)卡是100G單端口接入。OSU MPI Benchmark測(cè)試AllReduce集合通信操作,DF相對(duì)FT組網(wǎng),任務(wù)完成時(shí)間最高提升39.47%,總體提升21.63%。
OSU MPI Benchmark測(cè)試Alltoall集合通信操作, DF相對(duì)FT組網(wǎng),任務(wù)完成時(shí)間最高提升56.53%,總體提升49.71%。
隨著高性能網(wǎng)絡(luò)的全以太化發(fā)展,超融合以太網(wǎng)絡(luò)同時(shí)承載計(jì)算、存儲(chǔ)、管理和虛擬化等多種業(yè)務(wù)流量。為了追求更極致的性能,不同業(yè)務(wù)流量之間,極易出現(xiàn)互相干擾現(xiàn)象,競(jìng)爭(zhēng)網(wǎng)絡(luò)側(cè)有限的端口轉(zhuǎn)發(fā)資源。
為了解決這個(gè)難題,提出超融合智能無(wú)損網(wǎng)絡(luò)方案,將業(yè)務(wù)級(jí)SLA智能保障技術(shù)引入到交換機(jī)中,用iLoss-less智能無(wú)損算法代替專家經(jīng)驗(yàn),對(duì)網(wǎng)絡(luò)流量的變化進(jìn)行基于隊(duì)列級(jí)捕獲和預(yù)測(cè),實(shí)現(xiàn)細(xì)粒度動(dòng)態(tài)差異化優(yōu)化。結(jié)合不同業(yè)務(wù)的流量變化情況以及業(yè)務(wù)特征,實(shí)現(xiàn)不同業(yè)務(wù)流量差異化動(dòng)態(tài)優(yōu)化保障。
根據(jù)實(shí)驗(yàn)室測(cè)試,采用3臺(tái)華為交換機(jī)組成2級(jí)Spine-Leaf組網(wǎng),每臺(tái)接入層交換機(jī)下掛16臺(tái)100GE服務(wù)器,Spine與每個(gè)Leaf之間采用4個(gè)400G互聯(lián)(1:1收斂)。在計(jì)算和存儲(chǔ)benchmark流量混跑的測(cè)試環(huán)境下,智能無(wú)損算法相比于傳統(tǒng)算法配置,在保持存儲(chǔ)持平前提下,能夠有效降低計(jì)算任務(wù)的總體完成時(shí)間,在測(cè)試場(chǎng)景中實(shí)現(xiàn)最高20%以上的計(jì)算時(shí)延降低。
審核編輯:湯梓紅
-
負(fù)載
+關(guān)注
關(guān)注
2文章
600瀏覽量
34914 -
服務(wù)器
+關(guān)注
關(guān)注
12文章
9585瀏覽量
86943 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
5063瀏覽量
73029 -
AI
+關(guān)注
關(guān)注
87文章
33476瀏覽量
274049 -
均衡技術(shù)
+關(guān)注
關(guān)注
0文章
12瀏覽量
6708
原文標(biāo)題:數(shù)據(jù)中心超融合以太技術(shù)(2023)
文章出處:【微信號(hào):架構(gòu)師技術(shù)聯(lián)盟,微信公眾號(hào):架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
以太網(wǎng)交換機(jī)將在數(shù)據(jù)中心領(lǐng)域加速增長(zhǎng)
以太網(wǎng)技術(shù)基本原理
探討工業(yè)以太網(wǎng)技術(shù)(一)
探討工業(yè)以太網(wǎng)技術(shù)~(二)
網(wǎng)絡(luò)發(fā)展怎么改變企業(yè)數(shù)據(jù)中心的面貌的
以太網(wǎng)技術(shù)基本原理

更好的以太網(wǎng)打造更現(xiàn)代的數(shù)據(jù)中心
超融合數(shù)據(jù)中心網(wǎng)絡(luò)簡(jiǎn)介

轉(zhuǎn)載|數(shù)據(jù)中心網(wǎng)絡(luò)持續(xù)進(jìn)階,超融合以太技術(shù)正當(dāng)其時(shí)
超融合數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的典型特征與價(jià)值
企業(yè)數(shù)據(jù)中心超融合的現(xiàn)實(shí)

HPC和數(shù)據(jù)中心融合網(wǎng)絡(luò)面臨的技術(shù)挑戰(zhàn)

單對(duì)以太網(wǎng)技術(shù)的介紹 單對(duì)以太網(wǎng)技術(shù)的優(yōu)勢(shì) 單對(duì)以太網(wǎng)技術(shù)的應(yīng)用
祝賀!《超融合以太網(wǎng)絡(luò)總體技術(shù)要求》行業(yè)標(biāo)準(zhǔn)立項(xiàng)成功
數(shù)據(jù)中心市場(chǎng)的關(guān)鍵以太網(wǎng)解決方案

評(píng)論