在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

打破英偉達(dá)霸權(quán),Meta放了個(gè)大招!

芯片半導(dǎo)體 ? 來(lái)源:芯片半導(dǎo)體 ? 2023-09-27 17:21 ? 次閱讀

我們從一開(kāi)始就說(shuō)過(guò),開(kāi)放計(jì)算項(xiàng)目( Open Compute Project)的發(fā)起者 Meta Platforms 不可能想從 Nvidia 購(gòu)買(mǎi)完整的超級(jí)計(jì)算機(jī)系統(tǒng),以推進(jìn)其人工智能研究并將更新的大型語(yǔ)言模型和推薦引擎投入生產(chǎn)。以 Facebook 為核心平臺(tái)的 Meta Platforms 喜歡設(shè)計(jì)和構(gòu)建自己的東西,但由于缺乏兼容 OAM 的 GPU 和矩陣加速器而措手不及,他們別無(wú)選擇,只能購(gòu)買(mǎi)使用InfiniBand模式互連的 N-1 代 DGX SuperPOD系統(tǒng)。

現(xiàn)在,當(dāng) Meta Platforms 展望社交網(wǎng)絡(luò)內(nèi)人工智能的未來(lái)以及支撐計(jì)算引擎的互連時(shí),他們意識(shí)到,必須以令人難以置信的規(guī)模結(jié)合在一起,才能與超大規(guī)模和云構(gòu)建器競(jìng)爭(zhēng)對(duì)手競(jìng)爭(zhēng),于是,他們又將目光投向了以太網(wǎng)互連(Ethernet interconnects)。這就是為什么Meta Platforms 成為超以太網(wǎng)聯(lián)盟( Ultra Ethernet Consortium)的創(chuàng)始公司之一。

這個(gè)聯(lián)盟是由以太網(wǎng) ASIC 供應(yīng)商和交換機(jī)制造商組成的組織,他們并不是真的想相互合作,而是在受到互聯(lián)網(wǎng)巨頭及其新的人工智能新貴競(jìng)爭(zhēng)迫使的情況下,他們想去找到一種方法,讓以太網(wǎng)可以與InfiniBand一樣好,也能像后者一樣適用于 AI 和 HPC 網(wǎng)絡(luò),但使其擴(kuò)展到其運(yùn)行所需的規(guī)模。

對(duì)于今天的Meta Platforms來(lái)說(shuō),這意味著是大約 32,000 個(gè)計(jì)算引擎,然后是數(shù)十萬(wàn)臺(tái)設(shè)備,然后在不久的將來(lái)的某些時(shí)候?qū)⒊^(guò) 100 萬(wàn)臺(tái)設(shè)備。

從當(dāng)前看來(lái),擁有這個(gè)想法的企業(yè)包括了交換機(jī) ASIC 領(lǐng)域的 Broadcom、Cisco Systems 和 Hewlett Packard Enterprise(我們認(rèn)為很快還有 Marvell),云巨頭中的 Microsoft 和 Meta Platforms,以及交換機(jī)制造商中的 Cisco、HPE 和 Arista Networks。

他們正在團(tuán)結(jié)在一起,面對(duì)一個(gè)共同的敵人——InfiniBand。他們的宗旨則是——敵人的敵人就是朋友。

歸根到底,這是一條很簡(jiǎn)單的數(shù)學(xué)題。

InfiniBand很好,但也貴

在 21世紀(jì)的前十年,當(dāng)超大規(guī)模企業(yè)和云構(gòu)建商真正開(kāi)始構(gòu)建大規(guī)?;A(chǔ)設(shè)施時(shí),任何分布式系統(tǒng)的網(wǎng)絡(luò)部分(包括交換機(jī)、網(wǎng)絡(luò)接口和電纜)只占整個(gè)系統(tǒng)成本的不到 10%。

而當(dāng)?shù)谝淮?100 Gb/秒設(shè)備問(wèn)世時(shí),由于設(shè)計(jì)不正確,成本非常高,很快網(wǎng)絡(luò)成本就占到集群成本的 15% 或更多。隨著價(jià)格實(shí)惠的 100 Gb/秒以太網(wǎng)的出現(xiàn),以及現(xiàn)在速度達(dá)到 200 Gb/秒和 400 Gb/秒的速度,成本現(xiàn)在再次降至 10% 以下,但僅限于運(yùn)行應(yīng)用程序的前端網(wǎng)絡(luò)。

對(duì)于超大規(guī)模企業(yè)和云構(gòu)建者之間的人工智能訓(xùn)練和推理基礎(chǔ)設(shè)施,Nvidia 會(huì)簡(jiǎn)單明了地告訴您,網(wǎng)絡(luò)占集群成本的 20%。Nvidia 聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛解釋說(shuō):“InfiniBand 在相同帶寬下的大規(guī)模性能比以太網(wǎng)高出 20%,因此“InfiniBand 實(shí)際上是免費(fèi)的。”

但事實(shí)上,它(指代InfiniBand)不是免費(fèi)的。你仍然需要拿出現(xiàn)金,而且它占集群成本的 20%。大家都知道GPU 計(jì)算引擎的成本非常高,但與基于 CPU 的 Web 基礎(chǔ)設(shè)施集群的總體成本相比,這還是令人印象深刻的。人工智能系統(tǒng)的 InfiniBand 網(wǎng)絡(luò)的成本,從節(jié)點(diǎn)到節(jié)點(diǎn),肯定比在其他基礎(chǔ)設(shè)施集群上運(yùn)行數(shù)據(jù)庫(kù)、存儲(chǔ)和應(yīng)用程序的以太網(wǎng)昂貴得多。當(dāng)然,我們也承認(rèn),后者的帶寬會(huì)相對(duì)較對(duì)。

雖然兩大陣型都在彰顯自己并攻擊對(duì)方,但在650group看來(lái),雖然以太網(wǎng)與 InfiniBand有很多爭(zhēng)論,甚至有說(shuō)法指出一種技術(shù)是如何以犧牲另一種技術(shù)為代價(jià)或消亡而取得成功的,存在,但這些爭(zhēng)論都是錯(cuò)誤的。

“以太網(wǎng)和 InfiniBand 各有優(yōu)勢(shì),并且在同一市場(chǎng)中蓬勃發(fā)展。他們各有優(yōu)劣勢(shì)。”650group強(qiáng)調(diào)。

事實(shí)上,作為一種網(wǎng)絡(luò)互聯(lián)技術(shù),InfiniBand以其高可靠性、低時(shí)延、高帶寬等特點(diǎn)在超級(jí)計(jì)算機(jī)集群中得到廣泛應(yīng)用。此外,隨著人工智能的進(jìn)步,尤其是英偉達(dá)在GPU上的壟斷,InfiniBand成為了GPU服務(wù)器的首選網(wǎng)絡(luò)互連技術(shù)。

cb81ad20-5d15-11ee-939d-92fbcf53809c.png

650group也指出,InfiniBand 有幾個(gè)優(yōu)點(diǎn)。首先,該技術(shù)已經(jīng)存在 20 年,并且主要專(zhuān)注于 HPC 網(wǎng)絡(luò);其次,它是一項(xiàng)從一開(kāi)始就為 HPC 和 AI 網(wǎng)絡(luò)構(gòu)建的技術(shù)‘第三,人工智能可以使用低延遲和協(xié)議內(nèi)置的項(xiàng)目,例如網(wǎng)絡(luò)內(nèi)數(shù)據(jù)處理,這有助于進(jìn)一步加速人工智能。一個(gè)很好的例子是 InfiniBand 的 SHARP 網(wǎng)內(nèi)計(jì)算技術(shù)將 AI 數(shù)據(jù)縮減操作(AI 訓(xùn)練的關(guān)鍵要素)吞吐量提高了兩倍,這使得 InfiniBand 成為 AI 平臺(tái)性能最高的網(wǎng)絡(luò),并成為人工智能平臺(tái)的領(lǐng)先解決方案。

以太網(wǎng)也是人工智能平臺(tái)中領(lǐng)先的外部和管理網(wǎng)絡(luò)。

自1980年9月30日推出以來(lái),以太網(wǎng)標(biāo)準(zhǔn)已成為局域網(wǎng)中使用最廣泛的通信協(xié)議。與 InfiniBand 不同,以太網(wǎng)的設(shè)計(jì)考慮了以下主要目標(biāo):信息如何在多個(gè)系統(tǒng)之間輕松流動(dòng)?這是一個(gè)典型的具有分布式和兼容性設(shè)計(jì)的網(wǎng)絡(luò)。傳統(tǒng)以太網(wǎng)主要采用TCP/IP來(lái)構(gòu)建網(wǎng)絡(luò),目前已逐漸發(fā)展為RoCE。

一般來(lái)說(shuō),以太網(wǎng)主要用于將多臺(tái)計(jì)算機(jī)或其他設(shè)備(例如打印機(jī)、掃描儀等)連接到局域網(wǎng)。它不僅可以通過(guò)光纖電纜將以太網(wǎng)連接到有線(xiàn)網(wǎng)絡(luò),還可以通過(guò)無(wú)線(xiàn)組網(wǎng)技術(shù)實(shí)現(xiàn)無(wú)線(xiàn)網(wǎng)絡(luò)中的以太網(wǎng)。快速以太網(wǎng)、千兆以太網(wǎng)、10 吉比特以太網(wǎng)和交換以太網(wǎng)都是以太網(wǎng)的主要類(lèi)型。

cb8d984c-5d15-11ee-939d-92fbcf53809c.png

博通資深VP Ram Velaga 幾個(gè)月前在社交平臺(tái)中更是指出,以太網(wǎng)速度一直比Infiniband快至少2倍。今天,以太網(wǎng)的速度為每秒800千兆位,而Infiniband的速度為400Gbps。他表示,在 Infiniband 上以 400Gbps 的速度完成 1MB 消息傳輸需要 20 微秒,而在以太網(wǎng)上以 800Gbps 的速度完成 10 微秒。

Meta的Alexis Black Bjorlin在 OCP 2022 上更是介紹了在網(wǎng)絡(luò)中用于推薦工作負(fù)載的時(shí)間百分比。按照她的觀點(diǎn),用以太網(wǎng)取代Infiniband將使網(wǎng)絡(luò)時(shí)間減少一半。這在整個(gè)AI基礎(chǔ)設(shè)施上節(jié)省了10%-25%+的成本,且更可持續(xù)!

cba0d736-5d15-11ee-939d-92fbcf53809c.jpg

但即使如此,如前文所說(shuō),英偉達(dá)憑借在GPU的強(qiáng)勢(shì)關(guān)系,他們已經(jīng)在Infiniband的選擇上擁有了更多地話(huà)語(yǔ)權(quán)。于是,Ultra Ethernet Consortium(超以太聯(lián)盟,UCE)橫空出世。

超以太聯(lián)盟,卷土重來(lái)

之所以說(shuō)是卷土重來(lái),是因?yàn)檫@個(gè)聯(lián)盟從某種意義上來(lái)說(shuō)是為了完成以太網(wǎng)的未竟任務(wù)。

據(jù)白皮書(shū)介紹,超以太網(wǎng)聯(lián)盟的目標(biāo)是創(chuàng)建一個(gè)“完整的基于以太網(wǎng)的通信堆棧架構(gòu)”,該架構(gòu)將像以太網(wǎng)一樣普遍且經(jīng)濟(jì)高效,同時(shí)提供超級(jí)計(jì)算互連的性能。該聯(lián)盟的創(chuàng)始成員包括文章開(kāi)頭談到的那些積極參與 HPC 和網(wǎng)絡(luò)的公司,包括英特爾、AMD、HPE、Arista、Broadcom、思科、Meta 和微軟,該項(xiàng)目本身由 Linux 基金會(huì)托管。

UEC 主席 J Metz 博士在接受采訪(fǎng)的時(shí)候告訴The Register,該項(xiàng)目的目標(biāo)不是改變以太網(wǎng),而是對(duì)其進(jìn)行調(diào)整,以更好地適應(yīng) AI 和 HPC 工作負(fù)載更苛刻的特征。

“以太網(wǎng)是我們構(gòu)建的基礎(chǔ)技術(shù),因?yàn)樗菢I(yè)界持久、靈活和適應(yīng)性強(qiáng)的基本網(wǎng)絡(luò)技術(shù)的最佳范例,”他說(shuō)?!癠EC 的目標(biāo)是專(zhuān)注于如何在以太網(wǎng)上最好地承載 AI 和 HPC 工作負(fù)載流量。當(dāng)然,之前已經(jīng)有過(guò)一些嘗試,但沒(méi)有一個(gè)是針對(duì)高要求的 AI 和 HPC 進(jìn)行全新設(shè)計(jì)的工作負(fù)載,但沒(méi)有一個(gè)是開(kāi)放的、易于使用的并贏得了廣泛的采用?!彼M(jìn)一步指出。

針對(duì)網(wǎng)絡(luò)堆棧的多個(gè)層,該項(xiàng)目工作組的任務(wù)是開(kāi)發(fā)物理層和鏈路層的“增強(qiáng)性能、延遲和管理的規(guī)范”,以及開(kāi)發(fā)傳輸層和軟件層的規(guī)范。

根據(jù)白皮書(shū),網(wǎng)絡(luò)對(duì)于 AI 模型的訓(xùn)練變得越來(lái)越重要,而 AI 模型的規(guī)模正在不斷膨脹。有些擁有數(shù)萬(wàn)億個(gè)參數(shù),需要在大型計(jì)算集群上進(jìn)行訓(xùn)練,并且網(wǎng)絡(luò)需要盡可能高效才能保持這些集群繁忙。

雖然 AI 工作負(fù)載往往非常需要帶寬,但 HPC 還包括對(duì)延遲更加敏感的工作負(fù)載,并且需要滿(mǎn)足這兩個(gè)要求。為了滿(mǎn)足這些需求,UEC 確定了以下理想特性:靈活的delivery順序(flexible delivery order);現(xiàn)代擁塞控制機(jī)制(modern congestion control mechanisms);多路徑和數(shù)據(jù)包擴(kuò)散(multi-pathing and packet spraying);加上更大的可擴(kuò)展性和端到端遙測(cè)(greater scalability and end-to-end telemetry)。

根據(jù)白皮書(shū),舊技術(shù)使用的嚴(yán)格數(shù)據(jù)包排序會(huì)阻止無(wú)序數(shù)據(jù)直接從網(wǎng)絡(luò)傳遞到應(yīng)用程序,從而限制了效率。支持放寬數(shù)據(jù)包排序要求的現(xiàn)代 API 對(duì)于減少“尾部延遲”(tail latencies)至關(guān)重要。

多路徑和數(shù)據(jù)包擴(kuò)散涉及沿著源和目標(biāo)之間的所有可用網(wǎng)絡(luò)路徑同時(shí)發(fā)送數(shù)據(jù)包,以實(shí)現(xiàn)最佳性能。

如果多個(gè)發(fā)送方都針對(duì)同一節(jié)點(diǎn),則 AI 和 HPC 中的網(wǎng)絡(luò)擁塞主要是交換機(jī)和接收節(jié)點(diǎn)之間的鏈路問(wèn)題。然而,UEC 聲稱(chēng),當(dāng)前管理?yè)砣?a href="http://m.xsypw.cn/v/tag/2562/" target="_blank">算法并不能滿(mǎn)足針對(duì)人工智能優(yōu)化的網(wǎng)絡(luò)的所有需求。

首先,UEC 的目標(biāo)似乎是用可提供所需特性的新傳輸層協(xié)議取代融合以太網(wǎng)上的 RDMA (RoCE) 協(xié)議。這種超以太網(wǎng)傳輸將支持多路徑、packet-spraying傳輸、高效的速率控制算法,并向人工智能和高性能計(jì)算工作負(fù)載公開(kāi)一個(gè)簡(jiǎn)單的 API——或者至少這是其意圖。

HPE 對(duì) UEC 的參與引人注目,因?yàn)樗呀?jīng)擁有基于以太網(wǎng)的 HPC 互連。正如The Next Platform的作者在文章中詳細(xì)描述的那樣,Cray Slingshot 技術(shù)是以太網(wǎng)的“超集” ,同時(shí)保持與標(biāo)準(zhǔn)以太網(wǎng)框架的兼容性,并且在 HPE 最近參與的許多超級(jí)計(jì)算機(jī)項(xiàng)目中得到了應(yīng)用,例如Frontier 百億億次系統(tǒng)。

HPE 高性能互連總經(jīng)理 Mike Vildibill 表示,該公司支持 UEC 的動(dòng)機(jī)是希望確保 Slingshot 在開(kāi)放的生態(tài)系統(tǒng)中運(yùn)行。“我們希望符合 UEC 的 NIC 能夠體驗(yàn)到 Slingshot 結(jié)構(gòu)的一些性能和可擴(kuò)展性?xún)?yōu)勢(shì),”他說(shuō)。Vildibil 證實(shí),HPE 未來(lái)將繼續(xù)開(kāi)發(fā) Slingshot,但他認(rèn)為總會(huì)有一些第三方 NIC 或 SmartNIC 可能具有其 Slingshot NIC 上未實(shí)現(xiàn)的功能。

“因此,UEC 提供了一種機(jī)制來(lái)建立強(qiáng)大的第三方 NIC 生態(tài)系統(tǒng),以確保我們能夠支持廣泛的客戶(hù)需求,同時(shí)提供 Slingshot 的一些獨(dú)特功能,”他說(shuō)。

目前,UEC 正處于開(kāi)發(fā)的早期階段,關(guān)鍵技術(shù)概念仍在確定和研究中。Metz 博士表示,第一批批準(zhǔn)草案可能會(huì)在 2023 年底或 2024 年初準(zhǔn)備就緒,第一批基于標(biāo)準(zhǔn)的產(chǎn)品也預(yù)計(jì)將于明年推出。

芯片廠(chǎng)商積極參與,Meta放了個(gè)大招

雖然UEC正在推進(jìn),但很多廠(chǎng)商正在通過(guò)其產(chǎn)品來(lái)打破英偉達(dá)的壟斷。

以最積極的芯片廠(chǎng)商博通為例,今年夏天,Nvidia 承諾推出 Spectrum-X 平臺(tái),為生成型 AI 工作負(fù)載提供“無(wú)損以太網(wǎng)”。但博通的Ram Velaga 強(qiáng)調(diào),這并不是新鮮事,英偉達(dá)的產(chǎn)品,也并沒(méi)有什么特別之處是博通不具備的。

他解釋說(shuō),Nvidia 使用 Spectrum-X 實(shí)際上所做的是構(gòu)建一個(gè)垂直集成的以太網(wǎng)平臺(tái),該平臺(tái)擅長(zhǎng)以最小化尾延遲并減少 AI 作業(yè)完成時(shí)間的方式管理?yè)砣?。但Velaga 認(rèn)為,這與 Broadcom 對(duì)其Tomahawk5和Jericho3-AI交換機(jī) ASIC所做的沒(méi)有什么不同。他還認(rèn)為 Nvidia 承認(rèn)以太網(wǎng)對(duì)于處理人工智能中的 GPU 流更有意義。

我們需要稍微解析一下,Nvidia 的 Spectrum-X 不是產(chǎn)品。它是硬件和軟件的集合,其中大部分我們?cè)谶^(guò)去已經(jīng)介紹過(guò)。核心組件包括Nvidia的51.2Tbit/s Spectrum-4以太網(wǎng)交換機(jī)和BlueField-3數(shù)據(jù)處理單元(DPU)。

其基本思想是,只要您同時(shí)使用 Nvidia 的交換機(jī)及其 DPU,它們就會(huì)協(xié)同工作以緩解流量擁塞,并且(如果 Nvidia 可信的話(huà))完全消除數(shù)據(jù)包丟失。

雖然英偉達(dá)聲稱(chēng)這是其全新的功能單元,但 Velaga 認(rèn)為“無(wú)損以太網(wǎng)”的想法只是營(yíng)銷(xiāo)。“與其說(shuō)它是無(wú)損的,不如說(shuō)你可以有效地管理?yè)砣?,從而擁有一個(gè)非常高效的以太網(wǎng)結(jié)構(gòu),”他說(shuō)。換句話(huà)說(shuō),與以太網(wǎng)網(wǎng)絡(luò)不同,數(shù)據(jù)包丟失是必然的,它是規(guī)則的例外。無(wú)論如何,這就是想法。

Velaga 聲稱(chēng),這種擁塞管理已經(jīng)內(nèi)置于 Broadcom 最新一代的交換機(jī) ASIC 中 - 只是它們可以與任何供應(yīng)商或云服務(wù)提供商的 smartNIC 或 DPU 配合使用。Velaga 還表示,Nvidia 試圖實(shí)現(xiàn)的垂直整合與以太網(wǎng)是沖突的。

“以太網(wǎng)今天成功的全部原因是它是一個(gè)非常開(kāi)放的生態(tài)系統(tǒng),”他說(shuō)。

作為以太網(wǎng)的另一個(gè)支持者, Meta Platforms近日也在其主辦的 Networking Scale 2023 活動(dòng)上展示了融合以太網(wǎng)上采用 RDMA 的以太網(wǎng)(一種借鑒了 InfiniBand 的許多想法的低延遲以太網(wǎng))。

據(jù)nextplatform報(bào)道,該公司談到了如何使用以太網(wǎng)進(jìn)行中等規(guī)模的人工智能訓(xùn)練和推理集群,以及其近期計(jì)劃如何擴(kuò)展到具有 32,000 個(gè) GPU 共享數(shù)據(jù)的系統(tǒng),并使規(guī)模比它一直用于創(chuàng)建和訓(xùn)練 LLaMA 1 和 LLaMA 2 模型的最初 2,000 個(gè) GPU 集群提高了16 倍。需要強(qiáng)調(diào)一下,Meta Platforms 從 Nvidia 購(gòu)買(mǎi)的研究超級(jí)計(jì)算機(jī)系統(tǒng)最多擁有 16,000 個(gè) GPU,其中大部分是 Nvidia 的“Ampere”A100 GPU,其中相對(duì)較小的份額是更新且容量更大的“Hopper”H100 模塊。

“人工智能模型每?jī)傻饺昃蜁?huì)增長(zhǎng) 1,000 倍,”該公司網(wǎng)絡(luò)基礎(chǔ)設(shè)施團(tuán)隊(duì)軟件工程總監(jiān) Rajiv Krishnamurthy 解釋道。“我們?cè)?Meta 內(nèi)部觀察到了這一點(diǎn),我認(rèn)為根據(jù)我們?cè)谛袠I(yè)中觀察到的情況,這似乎是一種長(zhǎng)期趨勢(shì)。這個(gè)數(shù)字很難理解。因此,從物理角度來(lái)看,這會(huì)轉(zhuǎn)化為數(shù)萬(wàn)個(gè) GPU 集群大小,這意味著它們正在生成萬(wàn)億次計(jì)算。這是由 EB 級(jí)數(shù)據(jù)存儲(chǔ)支持的?!?/p>

“而從網(wǎng)絡(luò)角度來(lái)看,您正在考慮操縱每秒大約太比特的數(shù)據(jù)。工作負(fù)載本身就很挑剔。由此人們了解到,典型的 AI HPC 工作負(fù)載具有非常低的延遲要求,而且從數(shù)據(jù)包的角度來(lái)看,他們無(wú)法容忍丟失?!盧ajiv Krishnamurthy 說(shuō)。

為此,Meta Platforms 希望用于 AI 訓(xùn)練的生產(chǎn)集群的規(guī)模比其 2022 年 1 月購(gòu)買(mǎi)的 Nvidia RSC 機(jī)器的規(guī)模擴(kuò)大 2 倍,并在去年全年不斷擴(kuò)大規(guī)模,達(dá)到 16,000 個(gè) GPU 的完整配置。然后,不久之后,就會(huì)討論 48,000 個(gè) GPU,然后是 64,000 個(gè) GPU,依此類(lèi)推。

在Meta看來(lái),構(gòu)建一個(gè)可以進(jìn)行 LLM 訓(xùn)練(目前在Meta Platforms 上使用 LLaMA 2)和推理以及 Reco 訓(xùn)練和推理(在本例中為自主開(kāi)發(fā)的深度學(xué)習(xí)推薦模型或 DLRM)的系統(tǒng)非常困難,而且考慮到這四種工作負(fù)載的不同要求,這甚至可以說(shuō)是不可能的,正如 Meta Platforms 人工智能系統(tǒng)部門(mén)的研究科學(xué)家 Jongsoo Park 在這個(gè)蜘蛛圖中所示:

cbae0dca-5d15-11ee-939d-92fbcf53809c.jpg

Park 表示,Meta Platforms 擁有 32,000 個(gè) H100,在 FP8 四分之一精度浮點(diǎn)數(shù)學(xué)生產(chǎn)中產(chǎn)生約 30% 的峰值性能,Meta Platforms 將能夠在一天內(nèi)訓(xùn)練具有 650 億個(gè)參數(shù)的 LLaMA2 模型。為了實(shí)現(xiàn)這一目標(biāo),很多事情都必須改變,其中包括將訓(xùn)練令牌(token)批次增加到 2,000 以上,并在數(shù)千個(gè) GPU 上進(jìn)行擴(kuò)展。全局訓(xùn)練批量大小還必須在 32,000 個(gè) GPU 上保持不變,并使用他所謂的 3D 并行性(數(shù)據(jù)并行、張量并行和管道并行技術(shù)的組合)將工作分散到 GPU 上。Park 表示,由于參數(shù)和數(shù)據(jù)量變得如此之大,數(shù)據(jù)并行性正在耗盡,因此沒(méi)有辦法解決這個(gè)問(wèn)題。

cbbd3d36-5d15-11ee-939d-92fbcf53809c.jpg

為此,Meta一直在改個(gè)其系統(tǒng),以滿(mǎn)足客戶(hù)需求。

在幾年前,DLRM 訓(xùn)練和推理可以在單個(gè)節(jié)點(diǎn)上完成。然后,通過(guò)第一代以太網(wǎng) RoCE 集群,Meta 可以將多個(gè)節(jié)點(diǎn)集群在一起,但集群規(guī)模相當(dāng)有限。為了獲得所需的規(guī)模,它必須轉(zhuǎn)向 InfiniBand 和以太網(wǎng) RoCE v2,前者存在財(cái)務(wù)問(wèn)題,后者存在一些技術(shù)問(wèn)題,但該公司到目前為止已經(jīng)解決了。

Meta Platforms 擔(dān)任網(wǎng)絡(luò)工程師Lapukhov 表示,從基本構(gòu)建模塊開(kāi)始,基于 Nvidia 加速器的八路 GPU 服務(wù)器可以在節(jié)點(diǎn)內(nèi)具有數(shù)十個(gè)加速器的設(shè)備之間提供 450 GB/秒的帶寬。模型并行流量在節(jié)點(diǎn)內(nèi)互連上運(yùn)行,在本例中為 NVLink,但也可以是 PCI-Express 交換基礎(chǔ)設(shè)施。從這里開(kāi)始,模型必須使用某種形式的 RDMA(InfiniBand 或以太網(wǎng) RoCE)跨數(shù)千個(gè)節(jié)點(diǎn)(具有數(shù)萬(wàn)個(gè)聚合 GPU 計(jì)算引擎)進(jìn)行數(shù)據(jù)并行擴(kuò)展,并且您可以以 50 GB/秒的速度交付具有合理數(shù)量的網(wǎng)絡(luò)接口卡的節(jié)點(diǎn)之間的帶寬。

對(duì)于以太網(wǎng) AI 網(wǎng)絡(luò),Meta Platforms 使用與數(shù)據(jù)中心規(guī)模前端網(wǎng)絡(luò)應(yīng)用程序相同的 Clos 拓?fù)洌皇窃?AI 訓(xùn)練和 HPC 集群中使用 InfiniBand 的用戶(hù)普遍青睞的fat tree 拓?fù)洹?/p>

為了達(dá)到 32,256 個(gè) GPU,該公司在一個(gè)機(jī)架中放置了兩臺(tái)服務(wù)器,每臺(tái)服務(wù)器配有 8 個(gè) Nvidia H100 GPU。就機(jī)架而言,這并不是特別密集,但它的密度并不比 Nvidia 本身對(duì)其 DGX H100 集群所做的密集。這意味著有 2,000 個(gè)機(jī)架需要連接,如下所示:

cbc9aae4-5d15-11ee-939d-92fbcf53809c.jpg

如果仔細(xì)觀察,它實(shí)際上是 8 個(gè)集群,每個(gè)集群有 4,096 個(gè) GPU,每個(gè)集群在兩層網(wǎng)絡(luò)中交叉鏈接。

每個(gè)機(jī)架都有一對(duì)服務(wù)器,總共有 16 個(gè) GPU 和一個(gè)架頂交換機(jī)。目前尚不清楚服務(wù)器或交換機(jī)中有多少個(gè)端口,但每個(gè) GPU 最好有一個(gè)上行端口,這意味著每臺(tái)服務(wù)器有 8 個(gè)端口。(這就是 Nvidia 對(duì)其 DGX 設(shè)計(jì)所做的事情。)整個(gè) enchilada 中總共有 2,016 個(gè) TOR。隨著網(wǎng)絡(luò)的發(fā)展,交換機(jī)的數(shù)量相當(dāng)多。

這些架頂交換機(jī)使用 18 個(gè)集群交換機(jī)(您可以稱(chēng)之為主干)交叉連接成一個(gè)集群,整個(gè)集群中有 144 個(gè)交換機(jī)。然后還有另外 18 個(gè)具有 7:1 超額訂閱錐度的聚合交換機(jī),將 8 個(gè)子集群相互鏈接。即 2,178 個(gè)交換機(jī)互連 4,032 個(gè)節(jié)點(diǎn)。由于這些數(shù)據(jù)密集型 GPU 的帶寬需求,該比率為 1.85:1。

Lapukhov 的這張表很酷,它表明就 AI 模型而言,子集群粒度實(shí)際上約為 256 到 512 個(gè) GPU:

cbd74c12-5d15-11ee-939d-92fbcf53809c.jpg

這顯示了支撐人工智能的集體操作如何映射到網(wǎng)絡(luò)上:

cbe45326-5d15-11ee-939d-92fbcf53809c.jpg

要點(diǎn)就是這樣,這并不奇怪。當(dāng)您制作更大的結(jié)構(gòu)以跨越更多 GPU 時(shí),您會(huì)向網(wǎng)絡(luò)添加更多層,這意味著更多延遲,這會(huì)降低 GPU 的利用率,至少在 GPU 等待集體操作完成的某些時(shí)間在集群周?chē)鷤鞑?。但完全共享?shù)據(jù)并行全收集操作往往會(huì)發(fā)送小消息(通常為 1 MB 或更?。?,如果您能夠很好地處理小消息,則可以通過(guò)通信和計(jì)算的細(xì)粒度重疊來(lái)實(shí)現(xiàn)張量并行。

聽(tīng)起來(lái)好像有人需要大型 NUMA 節(jié)點(diǎn)來(lái)進(jìn)行推理和訓(xùn)練。。。。這正是 NVLink 的作用和 NVSwitch 的擴(kuò)展。

那么這在 Meta Platforms 數(shù)據(jù)中心中是什么樣子的呢?那么,前端數(shù)據(jù)中心結(jié)構(gòu)如下所示:

cbf67740-5d15-11ee-939d-92fbcf53809c.jpg

我們將數(shù)據(jù)中心劃分為四個(gè)房間,每個(gè)房間都有一些聚合網(wǎng)絡(luò),然后核心網(wǎng)絡(luò)將數(shù)據(jù)中心中心自己區(qū)域內(nèi)的房間連接在一起。為了將人工智能添加到服務(wù)器機(jī)房,集群訓(xùn)練交換機(jī)(CTSW)和機(jī)架訓(xùn)練交換機(jī)(RTSW)與其他應(yīng)用服務(wù)器添加到同一機(jī)房,并且可以與應(yīng)用服務(wù)器交錯(cuò)。在四個(gè)數(shù)據(jù)大廳中,Meta可以容納數(shù)以萬(wàn)計(jì)的緊密耦合的 GPU:

cc031f90-5d15-11ee-939d-92fbcf53809c.jpg

這是網(wǎng)絡(luò)平面的 3D 表示(如果這樣更容易可視化):

cc0ff01c-5d15-11ee-939d-92fbcf53809c.jpg

早在過(guò)去,Meta Platforms 使用 100 Gb/秒以太網(wǎng)和 RoCE v1 并取得了一些成功:

cc1c26b6-5d15-11ee-939d-92fbcf53809c.jpg

隨著轉(zhuǎn)向以太網(wǎng) RoCE v2(延遲和數(shù)據(jù)包保護(hù)功能得到極大改善),Meta Platforms 將 8 個(gè) 200 Gb/秒的端口連接到每臺(tái)服務(wù)器,并使用 400 Gb 將這些端口與機(jī)架和集群交換機(jī)交叉耦合/秒端口。

cc2bf5f0-5d15-11ee-939d-92fbcf53809c.jpg

在第二代 AI 架構(gòu)中,他們已將每個(gè) GPU 的主機(jī)下行鏈路速度提升至 400 Gb/秒,并且仍在運(yùn)行更高級(jí)別的網(wǎng)絡(luò)訂閱不足,無(wú)法保持比特順利傳輸。

Nextplatform的作者認(rèn)為,在未來(lái)的很多年里,情況都會(huì)如此。但如果超以太網(wǎng)聯(lián)盟采用Neta的方式,以太網(wǎng)將更像 InfiniBand,并將擁有多個(gè)供應(yīng)商,從而為所有超大規(guī)模提供商和云構(gòu)建商提供更多選擇和更大的競(jìng)爭(zhēng)壓力,以降低網(wǎng)絡(luò)價(jià)格。

不過(guò),不要指望它的成本會(huì)低于集群成本的 10%——只要 GPU 的成本仍然很高。但有意思的是,隨著 GPU 成本的下降,來(lái)自網(wǎng)絡(luò)的集群成本份額將會(huì)上升,從而給 InfiniBand 帶來(lái)更大的壓力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 以太網(wǎng)
    +關(guān)注

    關(guān)注

    40

    文章

    5605

    瀏覽量

    175172
  • 人工智能
    +關(guān)注

    關(guān)注

    1805

    文章

    48843

    瀏覽量

    247529
  • Meta
    +關(guān)注

    關(guān)注

    0

    文章

    303

    瀏覽量

    11783
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3927

    瀏覽量

    93290

原文標(biāo)題:打破英偉達(dá)霸權(quán),Meta放了個(gè)大招!

文章出處:【微信號(hào):TenOne_TSMC,微信公眾號(hào):芯片半導(dǎo)體】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    英偉達(dá)市值一夜蒸發(fā)近2萬(wàn)億 英偉達(dá)股價(jià)下跌超8%

    在美東時(shí)間周一,美股三大指數(shù)集體收跌,截至收盤(pán),英偉達(dá)股價(jià)下跌超8%,英偉達(dá)市值一夜蒸發(fā)2650億美元(換算下來(lái)約合人民幣19345億元);目前英偉
    的頭像 發(fā)表于 03-04 10:19 ?545次閱讀

    英偉達(dá)將推Steam Deck原生GeForce Now應(yīng)用,拓展至多平臺(tái)

    分辨率、60幀的HDR畫(huà)面(電視輸出),讓用戶(hù)隨時(shí)隨地享受極致畫(huà)質(zhì)的游戲樂(lè)趣。 不僅如此,英偉達(dá)還計(jì)劃將GeForce Now云游戲應(yīng)用拓展至更多平臺(tái)。通過(guò)與蘋(píng)果、Meta和字節(jié)跳動(dòng)等科技巨頭的合作
    的頭像 發(fā)表于 01-08 14:47 ?520次閱讀

    英偉達(dá)在華加大招聘,聚焦自動(dòng)駕駛技術(shù)

    近日,據(jù)最新報(bào)道,英偉達(dá)公司今年在中國(guó)市場(chǎng)顯著加大了招聘力度,旨在增強(qiáng)其研發(fā)能力,并深入探索最新的自動(dòng)駕駛技術(shù)。這一戰(zhàn)略調(diào)整反映了英偉達(dá)對(duì)中國(guó)市場(chǎng)的高度重視,以及對(duì)自動(dòng)駕駛技術(shù)未來(lái)發(fā)展
    的頭像 發(fā)表于 12-13 10:32 ?821次閱讀

    剛剛!英偉達(dá)最新回應(yīng)!

    12月10日消息,據(jù)報(bào)道,英偉達(dá)市值一夜蒸發(fā)掉了889億美元(約合人民幣6460億元)。 據(jù)此前媒體報(bào)道,近日英偉達(dá)公司因涉嫌違反《中華人民共和國(guó)反壟斷法》及《市場(chǎng)監(jiān)管總局關(guān)于附加限制
    的頭像 發(fā)表于 12-10 18:13 ?747次閱讀

    英偉達(dá)被立案調(diào)查 英偉達(dá)回應(yīng)反壟斷調(diào)查

    英偉達(dá)被立案調(diào)查!?國(guó)家市場(chǎng)監(jiān)督管理總局在12 月 9 日晚宣布,英偉達(dá)公司涉嫌違反《中華人民共和國(guó)反壟斷法》及《市場(chǎng)監(jiān)管總局關(guān)于附加限制性條件批準(zhǔn)
    的頭像 發(fā)表于 12-10 15:03 ?472次閱讀

    英偉達(dá)超越蘋(píng)果成為市值最高 英偉達(dá)取代英特爾加入道指

    在AI浪潮下英偉達(dá)被各路資本競(jìng)相追逐,2024年英偉達(dá)公司的股價(jià)累計(jì)上漲高達(dá)180%。在11月4日,英偉
    的頭像 發(fā)表于 11-05 15:22 ?741次閱讀

    英偉達(dá)市值飆升,逼近蘋(píng)果

    近日,隨著人工智能技術(shù)的持續(xù)繁榮,英偉達(dá)公司作為AI芯片生產(chǎn)的領(lǐng)軍者,其市值實(shí)現(xiàn)了驚人的飛躍。截至美國(guó)當(dāng)?shù)貢r(shí)間21日,英偉達(dá)的市值再創(chuàng)歷史新高,達(dá)到了3.525萬(wàn)億美元,首次突破3.5
    的頭像 發(fā)表于 10-23 09:31 ?593次閱讀

    英偉達(dá)股價(jià)分析:英偉達(dá)股價(jià)能否上漲到150美元,接下來(lái)該如何操作?

    來(lái)源:猛獸財(cái)經(jīng) ? 作者:猛獸財(cái)經(jīng) ? 猛獸財(cái)經(jīng)核心觀點(diǎn): (1)華爾街投行Oppenheimer已將英偉達(dá)的目標(biāo)價(jià)上調(diào)到了150美元。 (2)產(chǎn)品方面的最新進(jìn)展和合作伙伴關(guān)系進(jìn)一步提升了英偉
    的頭像 發(fā)表于 10-09 16:25 ?1060次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>股價(jià)分析:<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>股價(jià)能否上漲到150美元,接下來(lái)該如何操作?

    英偉達(dá)高管解讀Q2財(cái)報(bào) 但是英偉達(dá)市值暴跌1.4萬(wàn)億元

    英偉達(dá)正式發(fā)布了2025財(cái)年第二季度報(bào)告,英偉達(dá)公司在Q2營(yíng)收達(dá)到了300.4億美元,這個(gè)營(yíng)收超過(guò)了市場(chǎng)預(yù)期的287億美元,同比增長(zhǎng)122%;凈利潤(rùn)為166億美元,同比增長(zhǎng)168%,也
    的頭像 發(fā)表于 08-30 13:03 ?1044次閱讀

    英偉達(dá)Blackwell架構(gòu)揭秘:下一個(gè)AI計(jì)算里程碑?# 英偉達(dá)# 英偉達(dá)Blackwell

    英偉達(dá)行業(yè)資訊
    jf_02331860
    發(fā)布于 :2024年08月26日 10:58:09

    AI芯片巨頭英偉達(dá)漲超4% 英偉達(dá)市值暴增7500億

    誰(shuí)是美股最靚的仔?在人工智能浪潮之下AI芯片巨頭英偉達(dá)肯定有一席之地,特別是現(xiàn)在全球資本市場(chǎng)動(dòng)蕩之際,業(yè)界分析師多認(rèn)為英偉達(dá)是最佳“反彈股”之一。比如美國(guó)銀行分析師Vivek Arya
    的頭像 發(fā)表于 08-13 15:33 ?1399次閱讀

    英偉達(dá)或面臨重大技術(shù)性?huà)伿?英偉達(dá)市值一夜蒸發(fā)1.4萬(wàn)億

    我們都知道英偉達(dá)芯片大賣(mài)使得英偉達(dá)股價(jià)不斷飆升,持續(xù)創(chuàng)新高,但是依然有空頭存在,在當(dāng)?shù)貢r(shí)間7月30日美股半導(dǎo)體指數(shù)大跌,英偉
    的頭像 發(fā)表于 07-31 16:11 ?1207次閱讀

    英偉達(dá)TITAN AI顯卡曝光,性能狂超RTX 4090達(dá)63%!# 英偉達(dá)# 顯卡

    顯卡英偉達(dá)
    jf_02331860
    發(fā)布于 :2024年07月24日 17:18:28

    打破英偉達(dá)CUDA壁壘?AMD顯卡現(xiàn)在也能無(wú)縫適配CUDA了

    、英特爾等廠(chǎng)商雖然在努力追趕,但目前還未能看到有威脅英偉達(dá)地位的可能。 ? 最近一家英國(guó)公司Spectral Compute推出了一款方案,可以為AMD的GPU原生編譯CUDA源代碼,目前正在RNDA2、RDNA3上進(jìn)行規(guī)模測(cè)試。這或許可以
    的頭像 發(fā)表于 07-19 00:16 ?5812次閱讀
    主站蜘蛛池模板: 97青草| 777777777妇女亚洲| 亚洲成a人片8888kkkk | 天天操天天摸天天干 | 成人欧美精品一区二区不卡 | 国产一卡二卡≡卡四卡无人 | 成人一级视频 | 国产一区二区三区波多野吉衣 | 欧美国产日本高清不卡 | 手机精品视频在线观看免费 | 天天操天天操天天 | 狠狠干夜夜草 | 亚洲精品乱码久久久久久蜜桃图片 | 亚洲色图88 | 床上激情四射 | 欧美一区二区三区视频 | 天天躁日日躁成人字幕aⅴ 天天躁夜夜躁 | 在线午夜视频 | www.色天使| 亚洲 欧美 视频 | 亚洲精品久久久久影 | 亚洲精品蜜桃久久久久久 | 欧美性喷潮| 免费国内精品久久久久影院 | 国产一级aa大片毛片 | 亚洲男人的天堂久久香蕉网 | 免费看国产一级片 | 老师办公室高h文小说 | 久操伊人| 天堂电影免费在线观看 | 人人爽人人看 | 日本免费小视频 | 91在线播放免费不卡无毒 | 天天干天天弄 | 97久久精品国产精品青草 | 91成人在线免费视频 | 四虎4hu永久免费国产精品 | 久久国内精品 | 亚洲日韩色综合视频 | 国产精品99r8免费视频2022 | 96福利视频|