在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPU集群組網(wǎng)技術(shù)詳解

架構(gòu)師技術(shù)聯(lián)盟 ? 來(lái)源:牛逼的IT ? 2023-12-25 10:11 ? 次閱讀

? 流行的GPU/TPU集群網(wǎng)絡(luò)組網(wǎng),包括:NVLink、InfiniBand、ROCE以太網(wǎng)Fabric、DDC網(wǎng)絡(luò)方案等,深入了解它們之間的連接方式以及如何在LLM訓(xùn)練中發(fā)揮作用。為了獲得良好的訓(xùn)練性能,GPU網(wǎng)絡(luò)需要滿(mǎn)足以下條件:

1、端到端延遲:由于GPU間通信頻繁,降低節(jié)點(diǎn)間數(shù)據(jù)傳輸?shù)目傮w延遲有助于縮短整體訓(xùn)練時(shí)間。

2、無(wú)丟包傳輸:對(duì)于AI訓(xùn)練至關(guān)重要,因?yàn)槿魏翁荻然蛑虚g結(jié)果的丟失都會(huì)導(dǎo)致訓(xùn)練回退到內(nèi)存中存儲(chǔ)的前一個(gè)檢查點(diǎn)并重新開(kāi)始,嚴(yán)重影響訓(xùn)練性能。

3、有效的端到端擁塞控制機(jī)制:在樹(shù)形拓?fù)渲校?dāng)多個(gè)節(jié)點(diǎn)向單個(gè)節(jié)點(diǎn)傳輸數(shù)據(jù)時(shí),瞬態(tài)擁塞不可避免。持久性擁塞會(huì)增加系統(tǒng)尾延遲。由于GPU之間存在順序依賴(lài)關(guān)系,即使一個(gè)GPU的梯度更新受到網(wǎng)絡(luò)延遲影響,也可能導(dǎo)致多個(gè)GPU停運(yùn)。一個(gè)慢速鏈路就足以降低訓(xùn)練性能。

除了以上因素,還需要綜合考慮系統(tǒng)的總成本、功耗和冷卻成本等方面。在這些前提下,我們將探討不同的GPU架構(gòu)設(shè)計(jì)選擇及其優(yōu)缺點(diǎn)。

一、NVLink 交換系統(tǒng)

用于連接 GPU 服務(wù)器中的 8 個(gè) GPU 的 NVLink 交換機(jī)也可以用于構(gòu)建連接 GPU 服務(wù)器之間的交換網(wǎng)絡(luò)。Nvidia 在 2022 年的 Hot Chips 大會(huì)上展示了使用 NVswitch 架構(gòu)連接 32 個(gè)節(jié)點(diǎn)(或 256 個(gè) GPU)的拓?fù)浣Y(jié)構(gòu)。由于 NVLink 是專(zhuān)門(mén)設(shè)計(jì)為連接 GPU 的高速點(diǎn)對(duì)點(diǎn)鏈路,所以它具有比傳統(tǒng)網(wǎng)絡(luò)更高的性能和更低的開(kāi)銷(xiāo)。

14094040-a2b6-11ee-8b88-92fbcf53809c.png

第三代 NVswitch 配備 64 個(gè) NVLink 端口,提供高達(dá) 12.8Tbps 的交換容量,同時(shí)支持多播和網(wǎng)絡(luò)內(nèi)聚合功能。網(wǎng)絡(luò)內(nèi)聚合能夠在 NVswitches 內(nèi)部匯集所有工作 GPU 生成的梯度,并將更新后的梯度反饋給 GPU,以便進(jìn)行下一次迭代。這一特點(diǎn)有助于減少訓(xùn)練迭代過(guò)程中 GPU 之間的數(shù)據(jù)傳輸量。

據(jù) Nvidia 介紹,在訓(xùn)練 GPT-3 模型時(shí),NVswitch 架構(gòu)的速度是 InfiniBand 交換網(wǎng)絡(luò)的 2 倍,展現(xiàn)出了令人矚目的性能。然而,值得注意的是,這款交換機(jī)的帶寬相較于高端交換機(jī)供應(yīng)商提供的 51.2Tbps 交換機(jī)來(lái)說(shuō),要少 4 倍。

若嘗試使用 NVswitches 構(gòu)建包含超過(guò) 1000 個(gè) GPU 的大規(guī)模系統(tǒng),不僅成本上不可行,還可能受到協(xié)議本身的限制,從而無(wú)法支持更大規(guī)模的系統(tǒng)。此外,Nvidia 不單獨(dú)銷(xiāo)售 NVswitches,這意味著如果數(shù)據(jù)中心希望通過(guò)混合搭配不同供應(yīng)商的 GPU 來(lái)擴(kuò)展現(xiàn)有集群,他們將無(wú)法使用 NVswitches,因?yàn)槠渌?yīng)商的 GPU 不支持這些接口

二、InfiniBand 網(wǎng)絡(luò)

InfiniBand(簡(jiǎn)稱(chēng)IB),這項(xiàng)技術(shù)自1999年推出以來(lái),一直作為高速替代方案,有效替代了PCI和PCI-X總線(xiàn)技術(shù),廣泛應(yīng)用于連接服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)。雖然由于經(jīng)濟(jì)因素,其最初的宏大設(shè)想有所縮減,但I(xiàn)nfiniBand仍在高性能計(jì)算、人工智能/機(jī)器學(xué)習(xí)集群和數(shù)據(jù)中心等領(lǐng)域得到了廣泛應(yīng)用。這主要?dú)w功于其卓越的速度、低延遲、無(wú)丟失傳輸以及遠(yuǎn)程直接內(nèi)存訪問(wèn)(RDMA)功能。

更多InfiniBand技術(shù),請(qǐng)參考文章“英偉達(dá)Quantum-2 Infiniband技術(shù)A&Q”,“InfiniBand高性能網(wǎng)絡(luò)設(shè)計(jì)概述”,“關(guān)于InfiniBand和RDMA網(wǎng)絡(luò)配置實(shí)踐”,“高性能計(jì)算:RoCE v2 vs. InfiniBand網(wǎng)絡(luò)該怎么選?”,“收藏:InfiniBand與Omni-Path架構(gòu)淺析”,“InfiniBand網(wǎng)絡(luò)設(shè)計(jì)和研究(電子書(shū)更新)”,“200G HDR InfiniBand有啥不同?”,“Infiniband架構(gòu)和技術(shù)實(shí)戰(zhàn)(第二版)”,“關(guān)于InfiniBand架構(gòu)和知識(shí)點(diǎn)漫談”等等。

InfiniBand(IB)協(xié)議旨在實(shí)現(xiàn)高效且輕量化的設(shè)計(jì),有效避免了以太網(wǎng)協(xié)議中常見(jiàn)的開(kāi)銷(xiāo)。它支持基于通道和基于內(nèi)存的通信,可以高效處理各種數(shù)據(jù)傳輸場(chǎng)景。

通過(guò)發(fā)/收設(shè)備之間的基于信用的流量控制,IB實(shí)現(xiàn)了無(wú)丟包傳輸(隊(duì)列或虛擬通道級(jí)別)。這種逐跳的流量控制確保不會(huì)由于緩沖區(qū)溢出而造成數(shù)據(jù)丟失。此外,它還支持端點(diǎn)之間的擁塞通知(類(lèi)似于 TCP/IP 協(xié)議棧中的 ECN)。IB提供卓越的服務(wù)質(zhì)量,允許優(yōu)先處理某些類(lèi)型的流量以降低延遲和防止丟包。

值得一提的是,所有的IB交換機(jī)都支持RDMA協(xié)議,這使得數(shù)據(jù)可以直接從一個(gè)GPU的內(nèi)存?zhèn)鬏數(shù)搅硪粋€(gè)GPU的內(nèi)存,無(wú)需CPU操作系統(tǒng)的介入。這種直接傳輸方式提高了吞吐量,并顯著降低了端到端的延遲。

然而,盡管具有諸多優(yōu)點(diǎn),InfiniBand交換系統(tǒng)并不像以太網(wǎng)交換系統(tǒng)那樣流行。這是因?yàn)镮nfiniBand交換系統(tǒng)在配置、維護(hù)和擴(kuò)展方面相對(duì)困難。InfiniBand的控制平面通常通過(guò)一個(gè)單一的子網(wǎng)管理器進(jìn)行集中控制。雖然在小型集群中可以運(yùn)行良好,但對(duì)于擁有32K或更多GPU的網(wǎng)絡(luò),其擴(kuò)展性可能會(huì)成為一項(xiàng)挑戰(zhàn)。此外,IB網(wǎng)絡(luò)還需要專(zhuān)門(mén)的硬件,如主機(jī)通道適配器和InfiniBand電纜,這使得其擴(kuò)展成本比以太網(wǎng)網(wǎng)絡(luò)更高。

1417e258-a2b6-11ee-8b88-92fbcf53809c.png

目前,Nvidia是唯一一家提供高端IB交換機(jī)供HPC和AI GPU集群使用的供應(yīng)商。例如,OpenAI在Microsoft Azure云中使用了10,000個(gè)Nvidia A100 GPU和IB交換網(wǎng)絡(luò)來(lái)訓(xùn)練他們的GPT-3模型。而Meta最近構(gòu)建了一個(gè)包含16K GPU的集群,該集群使用Nvidia A100 GPU服務(wù)器和Quantum-2 IB交換機(jī)(英偉達(dá)GTC 2021大會(huì)上發(fā)布全新的InfiniBand網(wǎng)絡(luò)平臺(tái),具有25.6Tbps的交換容量和400Gbps端口)。這個(gè)集群被用于訓(xùn)練他們的生成式人工智能模型,包括LLaMA。值得注意的是,當(dāng)連接10,000個(gè)以上的GPU時(shí),服務(wù)器內(nèi)部GPU之間的切換是通過(guò)服務(wù)器內(nèi)的NVswitches完成的,而IB/以太網(wǎng)網(wǎng)絡(luò)則負(fù)責(zé)將服務(wù)器連接在一起。

為了應(yīng)對(duì)更大參數(shù)量的訓(xùn)練需求,超大規(guī)模云服務(wù)提供商正在尋求構(gòu)建具有32K甚至64K GPU的GPU集群。在這種規(guī)模上,從經(jīng)濟(jì)角度來(lái)看,使用以太網(wǎng)網(wǎng)絡(luò)可能更有意義。這是因?yàn)橐蕴W(wǎng)已經(jīng)在許多硅/系統(tǒng)和光模塊供應(yīng)商中形成了強(qiáng)大的生態(tài)系統(tǒng),并且以開(kāi)放標(biāo)準(zhǔn)為目標(biāo),實(shí)現(xiàn)了供應(yīng)商之間的互操作性。

三、ROCE無(wú)損以太網(wǎng)

以太網(wǎng)的應(yīng)用廣泛,從數(shù)據(jù)中心到骨干網(wǎng)絡(luò)都有其身影,速度范圍從1Gbps到800Gbps,未來(lái)甚至有望達(dá)到1.6Tbps。與Infiniband相比,以太網(wǎng)在互連端口速度和總交換容量上更勝一籌。此外,以太網(wǎng)交換機(jī)的價(jià)格相對(duì)較低,每單位帶寬的成本更具競(jìng)爭(zhēng)力,這主要?dú)w功于高端網(wǎng)絡(luò)芯片供應(yīng)商之間的激烈競(jìng)爭(zhēng),推動(dòng)了廠商將更多帶寬集成到ASIC中,從而降低了每千兆位的成本。

141c56e4-a2b6-11ee-8b88-92fbcf53809c.png

高端以太網(wǎng)交換機(jī)ASIC的主要供應(yīng)商可以提供高達(dá)51.2Tbps的交換容量,配備800Gbps端口,其性能是Quantum-2((英偉達(dá)GTC 2021大會(huì)上發(fā)布全新的InfiniBand網(wǎng)絡(luò)平臺(tái),具有25.6Tbps的交換容量和400Gbps端口))的兩倍。這意味著,如果交換機(jī)的吞吐量翻倍,構(gòu)建GPU網(wǎng)絡(luò)所需的交換機(jī)數(shù)量可以減少一半。

以太網(wǎng)還能提供無(wú)丟包傳輸服務(wù),通過(guò)優(yōu)先流量控制(PFC)實(shí)現(xiàn)。PFC支持8個(gè)服務(wù)類(lèi)別,每個(gè)類(lèi)別都可以進(jìn)行流量控制,其中一些類(lèi)別可以指定為無(wú)丟包類(lèi)別。在處理和通過(guò)交換機(jī)時(shí),無(wú)丟包流量的優(yōu)先級(jí)高于有丟包流量。在發(fā)生網(wǎng)絡(luò)擁塞時(shí),交換機(jī)或網(wǎng)卡可以通過(guò)流量控制來(lái)管理上游設(shè)備,而不是簡(jiǎn)單地丟棄數(shù)據(jù)包。

更多ROCE技術(shù)細(xì)節(jié),請(qǐng)參考文章“RoCE、IB和TCP等網(wǎng)絡(luò)知識(shí)及差異對(duì)比”,“關(guān)于RoCE技術(shù)3種實(shí)現(xiàn)及應(yīng)用”,“高性能計(jì)算:RoCE技術(shù)分析及應(yīng)用”,“高性能計(jì)算:RoCE v2 vs. InfiniBand網(wǎng)絡(luò)該怎么選?”,“RoCE技術(shù)在HPC中的應(yīng)用分析”,“面向數(shù)據(jù)中心無(wú)損網(wǎng)絡(luò)技術(shù)(IP、RDMA、IB、RoCE、AI Fabric)”,“超算網(wǎng)絡(luò)演變:從TCP到RDMA,從IB到RoCE”等等。

此外,以太網(wǎng)還支持RDMA(遠(yuǎn)程直接內(nèi)存訪問(wèn))通過(guò)RoCEv2(RDMA over Converged Ethernet)實(shí)現(xiàn),其中RDMA幀被封裝在IP/UDP內(nèi)。當(dāng)RoCEv2數(shù)據(jù)包到達(dá)GPU服務(wù)器中的網(wǎng)絡(luò)適配器(NIC)時(shí),NIC可以直接將RDMA數(shù)據(jù)傳輸?shù)紾PU的內(nèi)存中,無(wú)需CPU介入。同時(shí),可以部署如DCQCN等強(qiáng)大的端到端擁塞控制方案,以降低RDMA的端到端擁塞和丟包。

1420f992-a2b6-11ee-8b88-92fbcf53809c.png

在負(fù)載均衡方面,路由協(xié)議如BGP使用等價(jià)路徑多路徑路由(ECMP)來(lái)在多條具有相等“代價(jià)”的路徑上分發(fā)數(shù)據(jù)包。當(dāng)數(shù)據(jù)包到達(dá)具有多條到達(dá)目標(biāo)的等價(jià)路徑的交換機(jī)時(shí),交換機(jī)使用哈希函數(shù)來(lái)決定數(shù)據(jù)包的發(fā)送路徑。然而,哈希不總是完美的,可能會(huì)導(dǎo)致某些鏈路負(fù)載不均,造成網(wǎng)絡(luò)擁塞。

為了解決這個(gè)問(wèn)題,可以采用一些策略,例如預(yù)留輕微過(guò)量的帶寬,或者實(shí)現(xiàn)自適應(yīng)負(fù)載均衡,當(dāng)某條路徑擁塞時(shí),交換機(jī)可以將新流的數(shù)據(jù)包路由到其他端口。許多交換機(jī)已經(jīng)支持此功能。此外,RoCEv2的數(shù)據(jù)包級(jí)負(fù)載均衡可以將數(shù)據(jù)包均勻地分散在所有可用鏈路上,以保持鏈路平衡。但這可能導(dǎo)致數(shù)據(jù)包無(wú)序到達(dá)目的地,需要網(wǎng)卡支持在RoCE傳輸層上處理這些無(wú)序數(shù)據(jù),確保GPU接收到的數(shù)據(jù)是有序的。這需要網(wǎng)卡和以太網(wǎng)交換機(jī)的額外硬件支持。

另外部分廠商的ROCE以太網(wǎng)交換機(jī),也可以在交換機(jī)內(nèi)部聚合來(lái)自GPU的梯度,有助于減少訓(xùn)練過(guò)程中的GPU間流量,如Nvidia的高端以太網(wǎng)交換機(jī)等。

總的來(lái)說(shuō),高端太網(wǎng)交換機(jī)和網(wǎng)卡具備強(qiáng)大的擁塞控制、負(fù)載均衡功能和RDMA支持,可以擴(kuò)展到比IB交換機(jī)更大的設(shè)計(jì)。一些云服務(wù)提供商和大規(guī)模集群的公司已經(jīng)開(kāi)始使用基于以太網(wǎng)的GPU網(wǎng)絡(luò),以連接超過(guò)32K的GPU。

四、DDC全調(diào)度網(wǎng)絡(luò)

近期,數(shù)家交換機(jī)/路由器芯片供應(yīng)商宣布推出支持全調(diào)度Fabric或AI Fabric的芯片。這種全調(diào)度網(wǎng)絡(luò)實(shí)際上已經(jīng)應(yīng)用于許多模塊化機(jī)箱設(shè)計(jì)中十多年,其中包括Juniper的PTX系列路由器,它們采用了虛擬出口隊(duì)列(VOQ)網(wǎng)絡(luò)。

在VOQ架構(gòu)中,數(shù)據(jù)包僅在入口葉子交換機(jī)中進(jìn)行一次緩沖,存放在與最終出口葉子交換機(jī)/WAN端口/輸出隊(duì)列相對(duì)應(yīng)的隊(duì)列中。這些隊(duì)列在入口交換機(jī)中被稱(chēng)為虛擬輸出隊(duì)列(Virtual Output Queues, VOQs)。因此,每個(gè)入口葉子交換機(jī)為整個(gè)系統(tǒng)中的每個(gè)輸出隊(duì)列提供緩沖空間。該緩沖區(qū)的大小通常足以容納每個(gè)VOQ在40-70微秒內(nèi)遇到擁塞時(shí)的數(shù)據(jù)包。當(dāng)VOQ的數(shù)據(jù)量較少時(shí),它保留在片上緩沖區(qū)中;當(dāng)隊(duì)列開(kāi)始增長(zhǎng)時(shí),數(shù)據(jù)會(huì)轉(zhuǎn)移到外部存儲(chǔ)器中的深度緩沖區(qū)。

當(dāng)入口葉子交換機(jī)上的某個(gè)VOQ累積了多個(gè)數(shù)據(jù)包后,它會(huì)向出口交換機(jī)發(fā)送請(qǐng)求,要求在網(wǎng)絡(luò)中傳輸這些數(shù)據(jù)包。這些請(qǐng)求通過(guò)網(wǎng)絡(luò)傳送到出口葉子交換機(jī)。

出口葉子交換機(jī)中的調(diào)度器根據(jù)嚴(yán)格的調(diào)度層次以及其淺輸出緩沖區(qū)中的可用空間來(lái)批準(zhǔn)這些請(qǐng)求。這些批準(zhǔn)的速率受到限制,以避免過(guò)度訂閱交換機(jī)鏈路(超出隊(duì)列緩存接受范圍)。

一旦批準(zhǔn)到達(dá)入口葉子交換機(jī),它就會(huì)將所收到批準(zhǔn)的一組數(shù)據(jù)包發(fā)送到出口,并通過(guò)所有可用的上行鏈路進(jìn)行傳輸。

發(fā)送到特定VOQ的數(shù)據(jù)包可以均勻地分散在所有可用的輸出鏈路上,以實(shí)現(xiàn)完美的負(fù)載均衡。這可能導(dǎo)致數(shù)據(jù)包的重新排序。然而,出口交換機(jī)具有邏輯功能,可以將這些數(shù)據(jù)包按順序重新排列,然后將它們傳輸?shù)紾PU節(jié)點(diǎn)。

由于出口調(diào)度器在數(shù)據(jù)進(jìn)入交換機(jī)之前就對(duì)已批準(zhǔn)的數(shù)據(jù)進(jìn)行了控制,從而避免了鏈路帶寬的超額使用,因此消除了以太網(wǎng)數(shù)據(jù)面中99%由incast引起的擁塞問(wèn)題(當(dāng)多個(gè)端口嘗試向單個(gè)輸出端口發(fā)送流量時(shí)),并且完全消除了頭阻塞(HOL blocking)。需要指出的是,在這種架構(gòu)中,數(shù)據(jù)(包括請(qǐng)求和批準(zhǔn))仍然是通過(guò)以太網(wǎng)進(jìn)行傳輸?shù)摹?/p>

頭阻塞(HOL blocking)是指在網(wǎng)絡(luò)傳輸中,一列數(shù)據(jù)包中的第一個(gè)數(shù)據(jù)包如果遇到阻礙,會(huì)導(dǎo)致后面所有的數(shù)據(jù)包也被阻塞,無(wú)法繼續(xù)傳輸,即使后面的數(shù)據(jù)包的目標(biāo)輸出端口是空閑的。這種現(xiàn)象會(huì)嚴(yán)重影響網(wǎng)絡(luò)的傳輸效率和性能。

一些架構(gòu),如Juniper的Express和Broadcom的Jericho系列,通過(guò)其專(zhuān)有的分段化(cellified)數(shù)據(jù)面實(shí)現(xiàn)了虛擬輸出隊(duì)列(VOQ)。

在這種方法中,葉子交換機(jī)將數(shù)據(jù)包分割為固定大小的分段,并在所有可用的輸出鏈路上均勻分布它們。與在數(shù)據(jù)包級(jí)別進(jìn)行均勻分布相比,這可以提高鏈路利用率,因?yàn)榛旌鲜褂么笮秃托⌒蛿?shù)據(jù)包很難充分利用所有鏈路。通過(guò)分段轉(zhuǎn)發(fā),我們還避免了輸出鏈路上的另一個(gè)存儲(chǔ)/轉(zhuǎn)發(fā)延遲(出口以太網(wǎng)接口)。在分段數(shù)據(jù)面中,用于轉(zhuǎn)發(fā)分段的spine交換機(jī)被定制交換機(jī)所替代,這些定制交換機(jī)能夠高效地進(jìn)行分段轉(zhuǎn)發(fā)。這些分段數(shù)據(jù)面交換機(jī)在功耗和延遲方面優(yōu)于以太網(wǎng)交換機(jī),因?yàn)樗鼈儾恍枰С諰2交換的開(kāi)銷(xiāo)。因此,基于分段的數(shù)據(jù)面不僅可以提高鏈路利用率,還可以減少VOQ數(shù)據(jù)面的總體延遲。

1424f650-a2b6-11ee-8b88-92fbcf53809c.png

VOQ架構(gòu)確實(shí)存在一些局限性:

每個(gè)葉子交換機(jī)的入口端應(yīng)具有合理的緩沖區(qū),以供系統(tǒng)中所有VOQ在擁塞期間緩沖數(shù)據(jù)包。緩沖區(qū)大小與GPU數(shù)量及每個(gè)GPU的優(yōu)先級(jí)隊(duì)列數(shù)量成正比。GPU規(guī)模較大直接導(dǎo)致更大的入口緩沖區(qū)需求。

出口隊(duì)列緩沖區(qū)應(yīng)具備足夠的空間,以覆蓋通過(guò)數(shù)據(jù)面的往返延遲,以防在請(qǐng)求-批準(zhǔn)握手期間這些緩沖區(qū)耗盡。在較大的GPU集群中,使用3級(jí)數(shù)據(jù)面時(shí),由于光纜延遲和額外交換機(jī)的存在,此往返延遲可能會(huì)增加。如果出口隊(duì)列緩沖區(qū)未適當(dāng)調(diào)整以適應(yīng)增加的往返延遲,輸出鏈路將無(wú)法達(dá)到100%的利用率,從而降低系統(tǒng)的性能。

盡管VOQ系統(tǒng)通過(guò)出口調(diào)度減少了由于頭阻塞引起的尾延遲,但由于入口葉交換機(jī)必須在傳輸數(shù)據(jù)包之前進(jìn)行請(qǐng)求-批準(zhǔn)握手,因此一個(gè)數(shù)據(jù)包的最小延遲會(huì)增加額外的往返延遲。

盡管存在這些限制,全調(diào)度的VOQ(fabric)在減少尾延遲方面的性能要明顯優(yōu)于典型的以太網(wǎng)流量。如果通過(guò)增加緩沖區(qū)而使鏈路利用率提高到90%以上,則在GPU規(guī)模擴(kuò)大時(shí)帶來(lái)的額外開(kāi)銷(xiāo)可能是值得投資的。

此外,供應(yīng)商鎖定是VOQ(fabric)面臨的一個(gè)問(wèn)題。因?yàn)槊總€(gè)供應(yīng)商都使用自己的專(zhuān)有協(xié)議,所以在同一fabric中混合使用和匹配交換機(jī)變得非常困難。

總結(jié):主流GPU集群組網(wǎng)技術(shù)應(yīng)用情況

NVLink交換系統(tǒng)雖然為GPU間通信提供了有效解決方案,但其支持的GPU規(guī)模相對(duì)有限,主要應(yīng)用于服務(wù)器內(nèi)部的GPU通信以及小規(guī)模跨服務(wù)器節(jié)點(diǎn)間的數(shù)據(jù)傳輸。

InfiniBand網(wǎng)絡(luò)作為一種原生的RDMA網(wǎng)絡(luò),在無(wú)擁塞和低延遲環(huán)境下表現(xiàn)卓越。然而,由于其架構(gòu)相對(duì)封閉且成本較高,它更適用于中小規(guī)模且對(duì)有線(xiàn)連接有需求的客戶(hù)群體。

ROCE無(wú)損以太網(wǎng)則憑借其依托成熟的以太網(wǎng)生態(tài)、最低的組網(wǎng)成本以及最快的帶寬迭代速度,在中大型訓(xùn)練GPU集群的場(chǎng)景中展現(xiàn)出更高的適用性。

至于DDC全調(diào)度網(wǎng)絡(luò),它結(jié)合了信元交換和虛擬輸出隊(duì)列(VOQ)技術(shù),因此在解決以太網(wǎng)擁塞問(wèn)題方面有著顯著的優(yōu)勢(shì)。作為一種新興技術(shù),目前業(yè)界各家仍處于研究階段,以評(píng)估其長(zhǎng)期潛力和應(yīng)用前景。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4922

    瀏覽量

    130818
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    13

    文章

    9730

    瀏覽量

    87462
  • InfiniBand
    +關(guān)注

    關(guān)注

    1

    文章

    31

    瀏覽量

    9357

原文標(biāo)題:GPU集群組網(wǎng):NVLink、InfiniBand、ROCE、DDC技術(shù)分析

文章出處:【微信號(hào):架構(gòu)師技術(shù)聯(lián)盟,微信公眾號(hào):架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    [3.2.2]--組網(wǎng)技術(shù)

    組網(wǎng)技術(shù)
    jf_60701476
    發(fā)布于 :2022年11月30日 14:29:05

    基于自組網(wǎng)技術(shù)的智能無(wú)線(xiàn)抄表方案

      基于自組網(wǎng)技術(shù)的智能無(wú)線(xiàn)抄表方案 現(xiàn)代生活中,水表、電表和煤氣表的抄錄和收費(fèi),是城市生活的一個(gè)大問(wèn)題。人工入室抄表,擾民不說(shuō),還可能給居民帶來(lái)不安全因素;對(duì)于各職能公司
    發(fā)表于 01-29 11:24

    歡迎加入單片機(jī)與人機(jī)界面通訊組網(wǎng)技術(shù)QQ群

    歡迎加入單片機(jī)與人機(jī)界面通訊組網(wǎng)技術(shù)QQ群,加入請(qǐng)驗(yàn)證身份,謝謝。群號(hào):120590255
    發(fā)表于 07-03 14:56

    張藝-基于ZigBee的無(wú)線(xiàn)組網(wǎng)技術(shù)的研究與實(shí)現(xiàn)

    張藝-基于ZigBee的無(wú)線(xiàn)組網(wǎng)技術(shù)的研究與實(shí)現(xiàn) 歡迎研究ZigBee的朋友和我交流。。。
    發(fā)表于 08-11 19:08

    WiMi-net 433MHz無(wú)線(xiàn)自組網(wǎng)技術(shù)

    ,容量可線(xiàn)性擴(kuò)充的無(wú)線(xiàn)組網(wǎng)系統(tǒng)。WiMi-net無(wú)線(xiàn)組網(wǎng)技術(shù)是基于最底層的射頻芯片實(shí)現(xiàn)的一種自組網(wǎng)無(wú)線(xiàn)通訊技術(shù),旨在給用戶(hù)提供一種強(qiáng)覆蓋,大容量,低延時(shí)的無(wú)線(xiàn)局域網(wǎng)和無(wú)線(xiàn)廣域網(wǎng)移動(dòng)通訊
    發(fā)表于 12-07 17:14

    微功率低功耗MESH組網(wǎng)模塊在水表與燃?xì)獗頍o(wú)線(xiàn)抄表中的應(yīng)用

    達(dá)到8級(jí),組網(wǎng)后整個(gè)網(wǎng)絡(luò)覆蓋面積超過(guò)3千米。2. 集群組網(wǎng)基于擴(kuò)頻芯片sx1278,節(jié)點(diǎn)與集中器能直接組網(wǎng)連接,構(gòu)成星型組網(wǎng),如遇遠(yuǎn)距離節(jié)點(diǎn),則使用路由器進(jìn)行中繼
    發(fā)表于 05-06 14:52

    LoRa擴(kuò)頻低功耗MESH組網(wǎng)路由模塊的應(yīng)用

    路由與中繼通訊功能,網(wǎng)絡(luò)縱深路由級(jí)數(shù)達(dá)到8級(jí),組網(wǎng)后整個(gè)網(wǎng)絡(luò)覆蓋面積超過(guò)3千米。2. 集群組網(wǎng)基于LoRa擴(kuò)頻芯片sx1278,節(jié)點(diǎn)與集中器能直接組網(wǎng)連接,構(gòu)成星型組網(wǎng),如遇遠(yuǎn)距離節(jié)點(diǎn)
    發(fā)表于 05-08 22:24

    5G基站發(fā)展建設(shè)現(xiàn)狀及組網(wǎng)技術(shù)介紹

    出,高頻通信,超密集聯(lián)網(wǎng)等技術(shù),增加了天線(xiàn)饋線(xiàn)系統(tǒng)的安裝難度,增加了基站數(shù)量。5G基站發(fā)展建設(shè)現(xiàn)狀及組網(wǎng)技術(shù)在5G基站建設(shè)過(guò)程中的環(huán)境評(píng)估和評(píng)估成為重要問(wèn)題。目前,我國(guó)工業(yè)和信息化部已開(kāi)始選擇在一線(xiàn)城市
    發(fā)表于 10-12 16:21

    關(guān)于機(jī)動(dòng)通信網(wǎng)快速組網(wǎng)技術(shù)的研究

    關(guān)于機(jī)動(dòng)通信網(wǎng)快速組網(wǎng)技術(shù)的研究
    發(fā)表于 05-26 07:09

    ZigBee無(wú)線(xiàn)組網(wǎng)技術(shù)與設(shè)計(jì)

    本專(zhuān)題為你講解ZigBee無(wú)線(xiàn)組網(wǎng)技術(shù)及相關(guān)設(shè)計(jì)實(shí)現(xiàn)。內(nèi)容包括ZigBee簡(jiǎn)介、ZigBee技術(shù)相關(guān)、ZigBee協(xié)議原理、最新ZigBee模塊、ZigBee芯片、收發(fā)器解決方案,ZigBee無(wú)線(xiàn)組網(wǎng)與具體設(shè)計(jì)案例。
    發(fā)表于 11-23 11:11
    ZigBee無(wú)線(xiàn)<b class='flag-5'>組網(wǎng)技術(shù)</b>與設(shè)計(jì)

    無(wú)線(xiàn)傳輸與組網(wǎng)技術(shù)物聯(lián)網(wǎng)技術(shù)與實(shí)踐

    無(wú)線(xiàn)傳輸與組網(wǎng)技術(shù)物聯(lián)網(wǎng)技術(shù)與實(shí)踐
    發(fā)表于 10-26 10:11 ?15次下載
    無(wú)線(xiàn)傳輸與<b class='flag-5'>組網(wǎng)技術(shù)</b>物聯(lián)<b class='flag-5'>網(wǎng)技術(shù)</b>與實(shí)踐

    有線(xiàn)傳輸與組網(wǎng)技術(shù)物聯(lián)網(wǎng)技術(shù)與實(shí)踐2

    有線(xiàn)傳輸與組網(wǎng)技術(shù)物聯(lián)網(wǎng)技術(shù)與實(shí)踐2
    發(fā)表于 10-26 10:14 ?10次下載
    有線(xiàn)傳輸與<b class='flag-5'>組網(wǎng)技術(shù)</b>物聯(lián)<b class='flag-5'>網(wǎng)技術(shù)</b>與實(shí)踐2

    FTTR與FTTH組網(wǎng)技術(shù)解析

    關(guān)于FTTR與FTTH組網(wǎng),相信很多人都搞不清楚具體的區(qū)別,本期微課就從三個(gè)部分帶大家了解FTTR與FTTH組網(wǎng)技術(shù): 1、FTTR、FTTH、組網(wǎng)基本概念
    的頭像 發(fā)表于 05-19 14:44 ?6347次閱讀
    FTTR與FTTH<b class='flag-5'>組網(wǎng)技術(shù)</b>解析

    剖析組網(wǎng)技術(shù)類(lèi)型

    組網(wǎng)技術(shù)就是網(wǎng)絡(luò)組建技術(shù)。計(jì)算機(jī)網(wǎng)絡(luò)的類(lèi)型有很多,根據(jù)不同的組網(wǎng)技術(shù)有不同的分類(lèi)依據(jù)。 計(jì)算機(jī)網(wǎng)絡(luò)的類(lèi)型有很多,根據(jù)不同的組網(wǎng)技術(shù)有不同的分類(lèi)依據(jù)。 網(wǎng)絡(luò)按交換
    的頭像 發(fā)表于 05-19 15:21 ?1598次閱讀
    剖析<b class='flag-5'>組網(wǎng)技術(shù)</b>類(lèi)型

    主流GPU/TPU集群組網(wǎng)方案深度解析

    用于連接 GPU 服務(wù)器中的 8 個(gè) GPU 的 NVLink 交換機(jī)也可以用于構(gòu)建連接 GPU 服務(wù)器之間的交換網(wǎng)絡(luò)。Nvidia 在 2022 年的 Hot Chips 大會(huì)上展示了使用 NVswitch 架構(gòu)連接 32 個(gè)
    發(fā)表于 04-24 10:05 ?1622次閱讀
    主流<b class='flag-5'>GPU</b>/TPU<b class='flag-5'>集群組網(wǎng)</b>方案深度解析
    主站蜘蛛池模板: 色综合久久88色综合天天 | 久久人人干 | 看片在线| 性欧美长视频 | 真人午夜a一级毛片 | 韩国电影天堂 | 成年免费大片黄在线观看免费 | 综合第一页 | 天天视频国产免费入口 | 98色花堂永久地址国产精品 | 凹凸福利视频导航 | 狠狠操天天操夜夜操 | 特级一级毛片视频免费观看 | 亚洲午夜久久久久久91 | 亚洲国产成人久久一区www | 思思久99久女女精品 | 亚洲青青草原 | 亚洲免费成人在线 | 黄 色 录像成 人播放免费99网 | 色多多视频在线 | 在线a亚洲老鸭窝天堂新地址 | 国产吧在线 | 色爱综合网欧美 | 天天操视频 夜夜 | 成人午夜性视频欧美成人 | 手机看片福利1024 | 四虎精品免费永久在线 | 天堂最新版中文网 | 国产美女主播在线观看 | 色资源在线观看 | 男人视频网 | 在线一区二区观看 | 色老成人精品视频在线观看 | 国产成人在线影院 | 中文天堂最新版www官网在线 | 欧美激情91 | 日韩专区一区 | 黄色一级毛片在线观看 | 亚洲视频一二三 | 欧美特黄三级在线观看 | 国产成在线人视频免费视频 |