引言
NVIDIA NVLink 是一種關(guān)鍵的高速互連技術(shù),專為加速計(jì)算而設(shè)計(jì),尤其是在多 GPU 系統(tǒng)以及 GPU 和支持 CPU 之間 。NVLink 的出現(xiàn)標(biāo)志著傳統(tǒng)互連瓶頸的突破,凸顯了現(xiàn)代計(jì)算工作負(fù)載日益增長的需求。與通用性 PCIe 相比,NVLink 專為滿足高性能計(jì)算和人工智能領(lǐng)域中緊密耦合的 GPU 所需的大規(guī)模數(shù)據(jù)交換而設(shè)計(jì)。這項(xiàng)技術(shù)對(duì)于充分發(fā)揮百億億次級(jí)計(jì)算的潛力以及訓(xùn)練萬億參數(shù)人工智能模型至關(guān)重要 。本深度分析報(bào)告旨在全面探討 NVIDIA NVLink,涵蓋其定義、演進(jìn)、技術(shù)規(guī)格、應(yīng)用和未來趨勢(shì)。
NVIDIA NVLink 的基本原理
NVLink 是 NVIDIA 開發(fā)的一種專有的、基于導(dǎo)線的串行多通道近距離通信鏈路 。它能夠促進(jìn)跨多個(gè) NVIDIA GPU 和支持 CPU 的連貫數(shù)據(jù)和控制傳輸 。NVLink 采用點(diǎn)對(duì)點(diǎn)連接和高速信令互連 (NVHS) 。NVLink 的專有性質(zhì)使得 NVIDIA 能夠針對(duì)其 GPU 架構(gòu)對(duì)其進(jìn)行專門定制,從而實(shí)現(xiàn)開放標(biāo)準(zhǔn)可能無法實(shí)現(xiàn)的優(yōu)化。然而,這也使得用戶對(duì) NVIDIA 的生態(tài)系統(tǒng)產(chǎn)生了一定的依賴性。
與傳統(tǒng)的互連技術(shù)(如 PCI Express (PCIe))相比,NVLink 具有顯著的優(yōu)勢(shì) 。例如,第五代 NVLink 提供的帶寬是 PCIe Gen5 的 14 倍以上 。NVLink 由于采用直接 GPU 到 GPU 的通信路徑,減少了 PCIe 交換機(jī)和 CPU 參與所帶來的開銷,因此具有更低的延遲 。此外,NVLink 在 GPU 到 GPU 通信中采用網(wǎng)狀網(wǎng)絡(luò),而不是像 PCIe 那樣的中央集線器 。帶寬和延遲方面的巨大優(yōu)勢(shì)使得 NVLink 成為需要快速數(shù)據(jù)交換的苛刻多 GPU 工作負(fù)載的首選互連技術(shù)。與作為通用互連的 PCIe 相比,NVLink 的設(shè)計(jì)針對(duì)直接 GPU 到 GPU 通信進(jìn)行了優(yōu)化,繞過了這些瓶頸,從而在并行處理任務(wù)中實(shí)現(xiàn)了顯著的性能提升。
NVLink 在實(shí)現(xiàn)高速數(shù)據(jù)和控制傳輸方面具有以下關(guān)鍵優(yōu)勢(shì):它促進(jìn)了 GPU 之間更快的數(shù)據(jù)傳輸,從而加速了并行計(jì)算環(huán)境中的處理速度 。NVLink 還使 GPU 能夠共享內(nèi)存,從而創(chuàng)建一個(gè)統(tǒng)一的內(nèi)存池,以更有效地利用資源 。值得注意的是,NVLink 本身并不直接進(jìn)行內(nèi)存池化,而是為應(yīng)用程序?qū)崿F(xiàn)此功能提供了必要的高速連接 。此外,NVLink 減少了 CPU 在 GPU 到 GPU 通信中的干預(yù)需求,進(jìn)一步降低了延遲 與 PCIe Gen5 相比,NVLink 還具有更好的能源效率 。
各代產(chǎn)品的演進(jìn)和技術(shù)規(guī)格
NVLink 經(jīng)歷了多次迭代,每一代都帶來了顯著的改進(jìn),以滿足加速計(jì)算不斷增長的需求 。
- NVLink 1.0 (2014 年發(fā)布,在 Pascal P100 中實(shí)現(xiàn)): 每個(gè)差分對(duì)的信令速率為 20 GT/s 。每個(gè)鏈路在每個(gè)方向上有 8 個(gè)差分對(duì)(每個(gè)鏈路總共 32 根導(dǎo)線)每個(gè)鏈路的單向速率為 20 GB/s,雙向帶寬為 40 GB/s 。P100 芯片每個(gè)有 4 個(gè)鏈路 ,總雙向帶寬為 160 GB/s 。它支持 NVIDIA Pascal 架構(gòu) ,并且首個(gè)原生支持的 CPU 是 IBM POWER8+。NVLink 1.0 在帶寬方面比 PCIe 3.0 有了顯著提升,專門為早期 GPGPU 計(jì)算和 AI 加速的需求而設(shè)計(jì)。與 IBM 的合作凸顯了其最初對(duì)高性能服務(wù)器環(huán)境的關(guān)注。PCIe 3.0 的局限性在利用 GPU 并行處理能力的應(yīng)用程序中日益明顯。NVLink 1.0 提供了一條專用的高帶寬通道,從而在多 GPU 配置中實(shí)現(xiàn)了更高的效率,尤其是在 GPU 和 CPU 需要快速交換大型數(shù)據(jù)集的系統(tǒng)中。
- NVLink 2.0 (2017 年隨 Volta V100 推出): 每個(gè)差分對(duì)的信令速率為 25 GT/s 。每個(gè)鏈路在每個(gè)方向上有 8 個(gè)差分對(duì) 。每個(gè)鏈路的單向速率為 25 GB/s ,雙向帶寬為 50 GB/s 。V100 芯片每個(gè)有 6 個(gè)鏈路,總雙向帶寬為 300 GB/s 。它支持 NVIDIA Volta 架構(gòu) ,并引入了緩存一致性支持 。為了實(shí)現(xiàn)八個(gè) GPU 之間的完全互連,還引入了首代 NVSwitch 。NVLink 2.0 將其前代的帶寬翻了一番,并增加了緩存一致性等關(guān)鍵特性,進(jìn)一步提高了復(fù)雜工作負(fù)載下多 GPU 系統(tǒng)的效率。NVSwitch 的引入標(biāo)志著向可擴(kuò)展 GPU 集群邁出了重要一步。V100 每個(gè) GPU 的鏈路數(shù)量增加以及 NVSwitch 的引入,使得更復(fù)雜、性能更高的多 GPU 配置成為可能。緩存一致性通過確保跨 GPU 內(nèi)存的數(shù)據(jù)一致性簡化了編程,從而更容易開發(fā)并行應(yīng)用程序。
- NVLink 3.0 (2020 年隨 Ampere A100 推出): 每個(gè)差分對(duì)的信令速率為 50 GT/s 。每個(gè)鏈路在每個(gè)方向上有 4 個(gè)差分對(duì) 。每個(gè)鏈路的單向速率為 25 GB/s,雙向帶寬為 50 GB/s。A100 芯片每個(gè)有 12 個(gè)鏈路,總雙向帶寬為 600 GB/s 。它支持 NVIDIA Ampere 架構(gòu) ,并將 NVSwitch 端口增加到 36 個(gè) 。NVLink 3.0 保持了每個(gè)鏈路的帶寬,但顯著增加了每個(gè) GPU 的鏈路數(shù)量,從而實(shí)現(xiàn)了總帶寬的巨大飛躍。這一代對(duì)于處理日益復(fù)雜的人工智能模型至關(guān)重要。A100 上每個(gè) GPU 的鏈路數(shù)量翻倍為訓(xùn)練更大、更復(fù)雜的人工智能模型提供了必要的互連帶寬。NVSwitch 上端口數(shù)量的增加進(jìn)一步增強(qiáng)了多 GPU 系統(tǒng)的可擴(kuò)展性。
- NVLink 4.0 (2022 年隨 Hopper H100 推出): 每個(gè)差分對(duì)的信令速率為 100 GT/s(使用 PAM4 調(diào)制)。每個(gè)鏈路在每個(gè)方向上有 2 個(gè)差分對(duì) 。每個(gè)鏈路的單向速率為 25 GB/s ,雙向帶寬為 50 GB/s 。H100 芯片每個(gè)有 18 個(gè)鏈路 ,總雙向帶寬為 900 GB/s 。它支持 NVIDIA Hopper 和 NVIDIA Grace CPU 架構(gòu) 。NVSwitch 升級(jí)到第三代,具有 64 個(gè)端口并集成了 SHARP 協(xié)議 。NVLink 4.0 顯著提高了每個(gè)通道的信令速率,盡管每個(gè)鏈路的通道數(shù)量少于早期版本,但仍實(shí)現(xiàn)了更高的整體帶寬。NVSwitch 中 SHARP 的集成進(jìn)一步優(yōu)化了 HPC 和 AI 的集體操作。然而,實(shí)際性能測(cè)量有時(shí)會(huì)低于理論值 。轉(zhuǎn)向 PAM4 調(diào)制允許在相同的物理鏈路上實(shí)現(xiàn)更高的數(shù)據(jù)速率。SHARP(可擴(kuò)展分層聚合和歸約協(xié)議)直接集成到 NVSwitch 硬件中,加速了并行計(jì)算中常見的通信模式,從而降低了延遲并提高了效率。理論帶寬和實(shí)測(cè)帶寬之間的差異表明實(shí)際部署中可能存在開銷或限制。
- NVLink 5.0 (2024 年隨 Blackwell GB200 推出): 每個(gè)子鏈路的傳輸速率為 200Gbps,每個(gè)端口包含四個(gè)差分信號(hào)線對(duì) 。每個(gè)鏈路的單向速率為 100 GB/s ,雙向帶寬為 200 GB/s。B200 芯片每個(gè)有 18 個(gè)鏈路 ,總雙向帶寬為 1.8 TB/s 。它支持 NVIDIA Blackwell 架構(gòu) 。NVLink 5 Switch 具有 144 個(gè)端口,無阻塞交換容量為 14.4 TB/s 。在 GB300 NVL72 系統(tǒng)中支持 72 個(gè) GPU 的 NVLink 域 。NVLink 5.0 代表了互連帶寬的重大飛躍,與上一代相比,每個(gè) GPU 的帶寬翻了一番。這一進(jìn)步對(duì)于處理未來 AI 模型的巨大計(jì)算需求至關(guān)重要。新的交換機(jī)架構(gòu)實(shí)現(xiàn)的 NVLink 域的擴(kuò)展規(guī)模,使得在單個(gè)系統(tǒng)內(nèi)實(shí)現(xiàn)前所未有的并行處理水平成為可能。NVIDIA 的帶寬計(jì)算和術(shù)語(SubLink/Port/Lane)存在一些模糊之處 。帶寬的持續(xù)增長反映了 AI 和 HPC 對(duì)更快數(shù)據(jù)傳輸?shù)臒o盡需求。在單個(gè)高帶寬域中連接更多 GPU 的能力,使得更高效的模型并行和分布式計(jì)算成為可能。NVIDIA 術(shù)語的澄清需求表明,理解和充分利用 NVLink 5.0 的全部功能可能存在復(fù)雜性。
NVLink 各代規(guī)格總結(jié)
代數(shù) | 發(fā)布年份 | 每通道信令速率 (GT/s) | 每鏈路通道數(shù) (單向) | 每鏈路雙向帶寬 (GB/s) | 每個(gè)芯片的鏈路數(shù) (示例 GPU) | 每個(gè)芯片的總雙向帶寬 (GB/s) | 支持的架構(gòu) | 關(guān)鍵特性 |
---|---|---|---|---|---|---|---|---|
1.0 | 2014 | 20 | 8 | 40 | 4 (P100) | 160 | Pascal | 最初版本 |
2.0 | 2017 | 25 | 8 | 50 | 6 (V100) | 300 | Volta | 緩存一致性,NVSwitch 1.0 |
3.0 | 2020 | 50 | 4 | 50 | 12 (A100) | 600 | Ampere | NVSwitch 端口增加到 36 |
4.0 | 2022 | 100 (PAM4) | 2 | 50 | 18 (H100) | 900 | Hopper,Grace CPU | NVSwitch 3.0,SHARP 協(xié)議 |
5.0 | 2024 | 200 (PAM4) | 4 | 200 | 18 (B200) | 1800 | Blackwell | NVLink 5 Switch,72 GPU 域 |
NVLink Switch 的作用
NVLink Switch 是一種物理芯片(類似于交換機(jī) ASIC),它通過高速 NVLink 接口連接多個(gè) GPU 。它提高了服務(wù)器內(nèi)部和機(jī)架之間的通信和帶寬 ,并支持以全 NVLink 速度進(jìn)行所有 GPU 之間的通信。NVLink Switch 對(duì)于將 NVLink 擴(kuò)展到少量直接連接的 GPU 之外至關(guān)重要,它使得創(chuàng)建大型統(tǒng)一的 GPU 計(jì)算資源成為可能。如果沒有交換機(jī),可以直接相互通信的 GPU 數(shù)量會(huì)受到每個(gè) GPU 上 NVLink 端口數(shù)量的限制。NVLink Switch 充當(dāng)中央樞紐,允許系統(tǒng)中的任何 GPU 以高速與任何其他 GPU 通信,從而克服了這一限制并實(shí)現(xiàn)了更大更強(qiáng)大的系統(tǒng)。
不同代的 NVSwitch 具有不同的功能:NVSwitch 1.0(隨 Volta V100 推出)具有 18 個(gè)端口,每個(gè)端口 50 GB/s 的帶寬,總帶寬為 900 GB/s ;NVSwitch 2.0(隨 Ampere A100 推出)具有 36 個(gè)端口,每個(gè)端口 50 GB/s 的帶寬 ;NVSwitch 3.0(隨 Hopper H100 推出)具有 64 個(gè) NVLink4 端口,雙向帶寬為 3.2 TB/s,并集成了 SHARP 協(xié)議 ;NVLink 5 Switch(隨 Blackwell GB200 推出)具有 144 個(gè) NVLink 端口,無阻塞交換容量為 14.4 TB/s 。每一代 NVSwitch 都顯著增加了端口數(shù)量和整體交換容量,這與 NVLink 帶寬的進(jìn)步以及對(duì)更大型多 GPU 系統(tǒng)的需求直接相關(guān)。SHARP 等特性的集成凸顯了這些互連結(jié)構(gòu)日益增長的復(fù)雜性。
NVLink Switch 對(duì)大規(guī)模部署中的帶寬和延遲產(chǎn)生了重大影響 。它使得在服務(wù)器內(nèi)部和服務(wù)器之間創(chuàng)建 NVLink 網(wǎng)絡(luò)成為可能,從而形成了數(shù)據(jù)中心規(guī)模的 GPU 。通過 SHARP 等特性,它為集體操作提供了高帶寬和低延遲 。NVLink Switch 對(duì)于快速多 GPU 推理至關(guān)重要,尤其對(duì)于大型語言模型,它提供了高互連帶寬并實(shí)現(xiàn)了高效的數(shù)據(jù)交換 。NVLink Switch 是 NVLink 可擴(kuò)展性的關(guān)鍵推動(dòng)因素,使其能夠擴(kuò)展到單個(gè)服務(wù)器之外,形成對(duì)于應(yīng)對(duì)最苛刻計(jì)算挑戰(zhàn)至關(guān)重要的大規(guī)模互連 GPU 集群。通過提供高速低延遲的交換結(jié)構(gòu),NVLink Switch 允許聚合來自多個(gè)服務(wù)器的 GPU 的計(jì)算能力。這種能力對(duì)于實(shí)現(xiàn)百億億次級(jí)計(jì)算所需的性能以及訓(xùn)練和部署極其龐大的人工智能模型至關(guān)重要。
NVIDIA NVLink 的應(yīng)用
NVIDIA NVLink 在各種領(lǐng)域都有廣泛的應(yīng)用:
- 高性能計(jì)算 (HPC) : 通過實(shí)現(xiàn)大規(guī)模并行處理,加速科學(xué)模擬、天氣預(yù)報(bào)和流體動(dòng)力學(xué)等計(jì)算密集型任務(wù) 。它允許研究人員使用更大、更復(fù)雜的應(yīng)用程序來解決復(fù)雜問題 ,并且對(duì)于實(shí)現(xiàn)百億億次級(jí)計(jì)算性能至關(guān)重要 。NVLink 已成為現(xiàn)代超級(jí)計(jì)算機(jī)中不可或缺的組成部分,通過其處理極其苛刻計(jì)算工作負(fù)載的能力,使研究人員能夠突破科學(xué)發(fā)現(xiàn)的界限。NVLink 的高帶寬和低延遲使得構(gòu)成現(xiàn)代超級(jí)計(jì)算機(jī)的數(shù)千個(gè) GPU 之間能夠進(jìn)行高效的通信和數(shù)據(jù)共享。這使得科學(xué)家能夠以前所未有的規(guī)模運(yùn)行模擬和處理數(shù)據(jù),從而在各個(gè)科學(xué)領(lǐng)域取得突破。
- 人工智能 (AI) 和深度學(xué)習(xí) : 通過實(shí)現(xiàn)高效的多 GPU 處理和內(nèi)存共享,對(duì)于加速大型語言模型 (LLM) 和萬億參數(shù)模型的訓(xùn)練至關(guān)重要 。它縮短了訓(xùn)練時(shí)間并提高了 AI 算法的可擴(kuò)展,并且對(duì)于大型模型的實(shí)時(shí)、經(jīng)濟(jì)高效的推理至關(guān)重要。NVLink 還驅(qū)動(dòng)著 AI 代理并支持高級(jí) AI 應(yīng)用程序的開發(fā) 。NVLink 是當(dāng)前 AI 革命的基礎(chǔ)技術(shù),它使得開發(fā)和部署日益強(qiáng)大和復(fù)雜的人工智能模型成為可能,這些模型正在改變各個(gè)行業(yè)。現(xiàn)代 AI 模型的大規(guī)模數(shù)據(jù)集和計(jì)算需求需要像 NVLink 這樣的高帶寬、低延遲互連。沒有它,訓(xùn)練這些模型將非常緩慢且成本高昂。NVLink 高效連接和協(xié)調(diào)多個(gè) GPU 的能力對(duì)于推進(jìn) AI 的最新技術(shù)至關(guān)重要。
- 數(shù)據(jù)中心 : 支持為苛刻的工作負(fù)載創(chuàng)建高性能計(jì)算基礎(chǔ)設(shè)施 。它促進(jìn)了 GPU 資源的高效擴(kuò)展,以滿足大規(guī)模工作負(fù)載的需求 。NVLink 用于 NVIDIA DGX 和 HGX 系列服務(wù)器,這些服務(wù)器對(duì)于數(shù)據(jù)中心中的 AI 和 HPC 部署至關(guān)重要 ^5^。NVLink 是專為加速計(jì)算而設(shè)計(jì)的現(xiàn)代數(shù)據(jù)中心基礎(chǔ)設(shè)施的基石,它使組織能夠處理 AI、數(shù)據(jù)分析和科學(xué)研究中不斷增長的計(jì)算能力需求。數(shù)據(jù)中心正處于部署高性能計(jì)算資源的最前沿。NVLink 提供了必要互連技術(shù),以在這些數(shù)據(jù)中心內(nèi)構(gòu)建可擴(kuò)展且高效的 GPU 集群,從而支持廣泛的苛刻應(yīng)用程序和服務(wù)。
- 其他相關(guān)應(yīng)用:
- 渲染和可視化 : 支持 GPU 內(nèi)存池化,用于渲染大型復(fù)雜場(chǎng)景。
- 數(shù)據(jù)分析和大數(shù)據(jù) : 加速處理海量數(shù)據(jù) 。
- 虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí): 支持沉浸式體驗(yàn)所需的高帶寬和低延遲。
- 自動(dòng)駕駛汽車 : 促進(jìn)自動(dòng)駕駛汽車 AI 算法的訓(xùn)練。
- 機(jī)器人技術(shù) : 支持智能機(jī)器人的開發(fā)和訓(xùn)練。
NVLink-C2C (芯片到芯片互連)
NVLink-C2C 是 NVLink 技術(shù)的擴(kuò)展,用于在單個(gè)封裝內(nèi)或跨多個(gè)封裝的芯片之間進(jìn)行連貫互連 。它使用小芯片技術(shù)將 NVIDIA GPU、DPU 和 CPU(如 Grace)與定制硅連接起來 。NVLink-C2C 用于 NVIDIA Grace Hopper Superchip 和 Grace CPU Superchip ,也用于 NVIDIA GB200 Superchip,將 Blackwell GPU 和 Grace CPU 結(jié)合在一起 。NVLink-C2C 代表了 NVIDIA 互連策略的進(jìn)一步發(fā)展,它實(shí)現(xiàn)了系統(tǒng)中不同處理單元之間更緊密的集成,以最大限度地提高性能和效率。隨著工作負(fù)載變得更加異構(gòu),需要 CPU、GPU 和 DPU 的組合優(yōu)勢(shì),芯片級(jí)的高帶寬、低延遲互連變得至關(guān)重要。NVLink-C2C 促進(jìn)了這種緊密耦合,允許不同類型處理器之間進(jìn)行連貫的內(nèi)存訪問和更快的通信。
NVLink-C2C 的優(yōu)勢(shì)包括:用于連貫數(shù)據(jù)傳輸?shù)母邘?;用于快速同步和對(duì)共享數(shù)據(jù)進(jìn)行高頻更新的低延遲 ;與 NVIDIA 芯片上的 PCIe 相比,具有更高的能源和面積效率;支持 Arm 的 AMBA CHI 和 Compute Express Link (CXL) 等行業(yè)標(biāo)準(zhǔn)協(xié)議,以實(shí)現(xiàn)互操作性 。NVLink-C2C 不僅提高了性能,而且還關(guān)注功耗和面積效率,這對(duì)于構(gòu)建高密度、節(jié)能的計(jì)算系統(tǒng)至關(guān)重要。對(duì)行業(yè)標(biāo)準(zhǔn)的支持表明,在異構(gòu)計(jì)算環(huán)境中,NVIDIA 的技術(shù)正朝著更大的互操作性發(fā)展。通過優(yōu)化芯片到芯片的互連,NVIDIA 可以創(chuàng)建更強(qiáng)大、更高效的集成處理器。提高的能源和面積效率允許在相同的空間內(nèi)封裝更多的計(jì)算能力,同時(shí)降低功耗。支持行業(yè)標(biāo)準(zhǔn)確保 NVIDIA 的技術(shù)可以與系統(tǒng)中的其他組件無縫協(xié)作。
NVLink 與其他互連技術(shù)的比較
NVLink 與 PCIe 之間的詳細(xì)比較 :重申“基本原理”部分討論的帶寬、延遲、可擴(kuò)展性和設(shè)計(jì)目標(biāo)方面的關(guān)鍵差異。強(qiáng)調(diào) NVLink 針對(duì) GPU 到 GPU 和 GPU 到 CPU(在特定架構(gòu)中)的通信進(jìn)行了優(yōu)化,而 PCIe 是一種更通用的接口,用于連接各種外圍設(shè)備 。NVLink 和 PCIe 之間的選擇在很大程度上取決于具體的應(yīng)用需求。對(duì)于多 GPU 加速計(jì)算,NVLink 提供了顯著的優(yōu)勢(shì),而 PCIe 仍然是更廣泛系統(tǒng)連接的標(biāo)準(zhǔn)。理解每種互連技術(shù)的獨(dú)特優(yōu)勢(shì)和劣勢(shì)對(duì)于系統(tǒng)架構(gòu)師至關(guān)重要。NVLink 的高帶寬和低延遲使其非常適合緊密耦合的 GPU 工作負(fù)載,而 PCIe 的多功能性和廣泛采用使其適用于更廣泛的應(yīng)用。
討論 NVLink 相對(duì)于其他高速互連技術(shù)(如 InfiniBand)的地位 :InfiniBand 是一種用于 HPC 和數(shù)據(jù)中心的開放標(biāo)準(zhǔn)網(wǎng)絡(luò)技術(shù),為互連計(jì)算節(jié)點(diǎn)和 I/O 設(shè)備提供高帶寬和低延遲。NVLink 主要用于服務(wù)器內(nèi)部的多 GPU 通信,而 InfiniBand 用于構(gòu)建大規(guī)模集群的節(jié)點(diǎn)間通信 。利用 NVSwitch 的 NVLink 網(wǎng)絡(luò)可以將 NVLink 連接擴(kuò)展到節(jié)點(diǎn)之間,模糊了服務(wù)器內(nèi)部和服務(wù)器之間通信的界限 。通常,在大型系統(tǒng)中采用混合方法,使用 NVLink 進(jìn)行機(jī)架內(nèi) GPU 通信,而使用 InfiniBand(或基于以太網(wǎng)的 RoCE)進(jìn)行機(jī)架間。雖然 NVLink 和 InfiniBand 都解決了對(duì)高速低延遲互連的需求,但它們是為不同的規(guī)模和目的而設(shè)計(jì)的。NVLink 在緊密耦合服務(wù)器內(nèi)部的 GPU 方面表現(xiàn)出色,而 InfiniBand 更適合構(gòu)建大型分布式計(jì)算環(huán)境。然而,NVIDIA 在 NVLink 網(wǎng)絡(luò)方面的進(jìn)步正在擴(kuò)大其覆蓋范圍。對(duì)于需要單個(gè)服務(wù)器內(nèi)大規(guī)模并行處理的應(yīng)用,NVLink 提供了最有效的解決方案。對(duì)于擴(kuò)展到數(shù)百或數(shù)千個(gè)節(jié)點(diǎn),InfiniBand 提供了一種成熟且廣泛采用的技術(shù)。NVLink 網(wǎng)絡(luò)的出現(xiàn)表明了 NVIDIA 旨在提供跨不同規(guī)模的更統(tǒng)一的互連解決方案。
未來趨勢(shì)與分析
NVLink 將繼續(xù)發(fā)展,具有更高的帶寬能力(例如,NVLink 5.0 及更高版本),以滿足 AI 和 HPC 不斷增長的需求 。預(yù)計(jì) Vera Rubin 等未來幾代產(chǎn)品將進(jìn)一步提高 NVLink 的速度 。NVSwitch 技術(shù)的進(jìn)步將帶來更大的可擴(kuò)展性選項(xiàng),從而實(shí)現(xiàn)包含數(shù)百甚至數(shù)千個(gè) GPU 的更大 NVLink 域 。NVLink Switch 有望在單個(gè) NVLink 域中擴(kuò)展到 576 個(gè) GPU 。它還可能與 CXL 等其他互連技術(shù)融合或集成,以支持異構(gòu)計(jì)算架構(gòu) 。未來的 NVLink 設(shè)計(jì)將側(cè)重于提高能源效率和降低功耗 。NVLink 在 AI 領(lǐng)域具有戰(zhàn)略重要性,并在維持 NVIDIA 的競(jìng)爭優(yōu)勢(shì)方面發(fā)揮著關(guān)鍵作用 。NVLink 的未來與 GPU 技術(shù)的進(jìn)步以及 AI 和 HPC 不斷變化的需求緊密相關(guān)。我們可以預(yù)期在更高的帶寬、更大的可擴(kuò)展性和更高的效率方面將持續(xù)推進(jìn),并可能與其他互連標(biāo)準(zhǔn)更緊密地集成,以創(chuàng)建更通用、更強(qiáng)大的計(jì)算平臺(tái)。隨著 AI 模型規(guī)模和復(fù)雜性的增長,以及 HPC 工作負(fù)載需要越來越高的計(jì)算能力,對(duì)更快、更可擴(kuò)展的互連的需求只會(huì)增加。NVIDIA 對(duì) NVLink 和 NVSwitch 的持續(xù)投資表明了其致力于解決這些挑戰(zhàn)并保持其在加速計(jì)算市場(chǎng)領(lǐng)導(dǎo)地位的決心。與 CXL 等技術(shù)的潛在集成表明,未來不同類型的處理器和內(nèi)存可以更無縫、更高效地互連。
結(jié)論
NVIDIA NVLink 的主要優(yōu)勢(shì)在于其高帶寬、低延遲和可擴(kuò)展性,這使其成為加速計(jì)算的關(guān)鍵技術(shù)。它在高性能計(jì)算、人工智能和數(shù)據(jù)科學(xué)領(lǐng)域的突破性進(jìn)展中具有重要意義。NVLink 在提升現(xiàn)代計(jì)算系統(tǒng)的能力方面發(fā)揮著至關(guān)重要的作用,并將繼續(xù)發(fā)展以應(yīng)對(duì)未來計(jì)算挑戰(zhàn)的需求。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5274瀏覽量
105934 -
AI
+關(guān)注
關(guān)注
88文章
34588瀏覽量
276193 -
PCIe
+關(guān)注
關(guān)注
16文章
1329瀏覽量
84834
發(fā)布評(píng)論請(qǐng)先 登錄
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】+NVlink技術(shù)從應(yīng)用到原理
面向半定制AI基礎(chǔ)架構(gòu)的NVIDIA NVLink Fusion技術(shù)

NVIDIA特供芯片B30曝光,沒有HBM,沒有NVLink
GPU架構(gòu)深度解析

評(píng)論