在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

DGX-2為什么被稱為全球最大GPU

NVIDIA英偉達企業解決方案 ? 來源:未知 ? 作者:胡薇 ? 2018-10-25 15:07 ? 次閱讀

今年早些時候,NVIDIA首席執行官黃仁勛發布了NVIDIA? DGX-2?服務器,并稱其為“全球最大GPU”。DGX-2在單一系統中包含了16個NVIDIA Tesla? V100 32 GB GPU和其他頂級組件(兩個24核Xeon CPU、1.5 TB DDR4 DRAM內存和30 TB NVMe存儲),通過基于NVSwitch的NVLink結構連接,可提供2 petaFLOPS的性能,堪稱最強大的超級計算機之一。

NVSwitch使DGX-2成為了最大的GPU,這意味著其總體并非各部分的簡單加成。事實證明,讓DGX-2服務器能夠稱得上“全球最大GPU”的,正是其中看似最不起眼的部分。讓我們來看看創新NVIDIA NVSwitch?芯片及其他工程特性如何使DGX-2成為了全球最大的GPU。

注:本文中的信息來自于Alex Ishii 和 Denis Foley 在Hot Chip 2018大會上的專題演示“NVSwitch and DGX?2 – NVIDIA NVLink-Switching Chip and Scale-Up GPU-Compute Server”。

單一GPU

讓我們先看看單一多核GPU如何與CPU交互,如圖1所示。程序員通過NVIDIA CUDA?技術明確地展現了并行工作。工作流經PCIe I / O端口進入GPU,其中數據由GPU驅動程序分發到可用的圖形處理群集(GPC)和流式多處理器(SM)內核。XBAR的采用讓GPU / SM內核能夠在L2高速緩存和高帶寬GPU內存(HBM2)上交換數據。

GPC和GPU內存之間的高帶寬可實現大規模計算能力和快速同步,但規模受限,因其要求數據必須適合本地GPU內存,才能有效使用XBAR提供的高帶寬。

圖1. 連接到CPU的單一GPU

雙GPU(PCIe和NVLink)

圖2顯示了添加另一個GPU是如何增加可用GPU內存量的。在所示配置中,GPU只能以PCIe提供的32 GBps的最大雙向帶寬,訪問其他GPU上的內存。此外,這些交互會與總線上的CPU操作競爭,甚至進一步占用可用帶寬。

圖2. 通過PCIe總線連接的雙GPU

NVIDIA NVLink?技術使GPC無需通過PCIe總線即可訪問遠程GPU內存,如圖3所示。NVLinks實現了XBAR之間的有效橋接。V100 GPU上最多可采用六個NVLink,GPU之間的雙向帶寬可達300 GBps。但是,在具有兩個以上GPU的系統中,六個可用的NVLink必須先分成較小的鏈接組,每個組專用于訪問不同的特定單一GPU。這就限制了可使用直接連接來構建的機器規模,并降低了每對GPU之間的帶寬。

圖3. 通過NVLink技術連接的雙GPU

Super Crossbar將GPU連接在一起

理想的情況是提供某種交叉,讓更多GPU能夠訪問所有GPU內存,所有GPU都可能在單一GPU驅動程序實例的控制下,如圖4所示。有了這樣的交叉,可在沒有其他進程干預的情況對GPU內存進行訪問,且可用帶寬將足夠高,可提供類似于上文所述的雙GPU情況下的性能擴展。

圖4. 尋找交叉開關設備

最終目標是提供以下所有內容:

更大的問題規模容量。大小受整個GPU集合的GPU內存容量限制,而非單一GPU容量。

強大的可擴展性。與現有解決方案相比,NUMA效應將大大降低。總內存帶寬實際上會隨GPU數量而增長。

使用便利。針對較少數量的GPU編寫的應用程序將更易于移植。此外,豐富的資源可助力快速開展實驗。

以上16-GPU配置(假設有32GB V100 GPU)產生的總容量使其能夠前所未有地運行“一個超強GPU”的計算。

NVIDIA NVSwitch介紹

NVSwitch(圖5)是一款GPU橋接設備,可提供所需的NVLink交叉網絡。端口邏輯模塊中的數據包轉換使得進出多GPU的流量看似是通過單一GPU的。

圖5. 帶有標注的NVSwitch芯片裸片

NVSwitch芯片并行運行,以支持數量日益增加的GPU之間的互連。可使用三個NVSwitch芯片構建一個8 GPU封閉系統。兩條NVLink路徑將每個GPU連接至每臺交換機,流量在所有NVLink和NVSwitch之間交叉。 GPU使用任意對之間的300 GBps雙向帶寬成對通信,因為NVSwitch芯片提供了從任何源到任何目的地的唯一路徑。

圖6. NVSwitch框圖

實現了對分帶寬

讓每個GPU從另一個GPU讀取數據,而不會有兩個GPU從同一遠程GPU讀取數據,就實現了無干擾的成對通信能力。使用16個GPU實現的1.98 TBps讀取帶寬與128B傳輸在理論上80%的雙向NVLink效率相匹配。

圖7. 實現的對分帶寬結果

使用cuFFT(16K X 16K)

實現更強大的可擴展性

通過在越來越多的GPU上(更高的GFLOPS,相應的總運行時間卻更短)、以及搭載V100 GPU的NVIDIA DGX-1服務器上運行“iso-problem instance”計算進行對比,即能證明其強大的可擴展性能,如圖8所示。如果沒有NVSwitch網絡提供的NVLink交叉,由于問題分散在更多GPU上,傳輸數據所需的時間要長于在本地對相同數據進行簡單計算所需的時間。

圖8. 使用NVLink與Hybrid Cube Mesh的cuFFT結果

全歸約基準測試

圖9也體現了NVLink交叉的優勢。全歸約基準測試是對機器學習應用程序中采用的重要通信原語進行的測量。與兩臺配備八個GPU的服務器(通過InfiniBand連接)相比,NVLink交叉讓16 GPU DGX-2服務器能夠提供更高帶寬和更低延遲。 針對較小的信息,NVLink網絡的效率明顯優于InfiniBand。

圖9. 全歸約基準測試結果顯示NVLink與InfiniBand帶寬效率的顯著差異

HPC和AI訓練基準測試的加速

圖10所示,與總GPU數相同的兩臺DGX-1(采用V100)服務器相比,HPC和AI訓練基準測試性能得以提升,速度達到了其2到2.7倍。對比所用的DGX-1服務器各采用了8個Tesla V100 32 GB GPU和雙槽Xeon E5 2698v4處理器。服務器通過四個EDR IB / GbE端口連接。

圖10. HPC和AI訓練基準測試的加速

總結

正因有了NVSwitch芯片,DGX-2才可謂全球最大GPU。NVSwitch是一種暢通無阻的設備,具有18個NVLink端口,每端口51.5 GBps,聚合雙向帶寬達928 GBps。采用了NVSwitch芯片的DGX-2可提供512 GB的總容量,針對特定應用的性能表現超過InfiniBand連接的一對DGX-1服務器的兩倍。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5246

    瀏覽量

    105783
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4912

    瀏覽量

    130672

原文標題:全球最大GPU 背后的秘密:NVSwitch如何實現NVIDIA DGX-2的超強功力?

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    NVIDIA推出AI平臺DGX Cloud Lepton

    CoreWeave、Crusoe、Firmus、Foxconn、GMI Cloud、Lambda、Nebius、Nscale、SoftBank Corp. 和 Yotta Data Services 為 DGX Cloud Lepton Marketplace 提供數以萬計的 G
    的頭像 發表于 05-22 09:42 ?213次閱讀

    NVIDIA發布AI優先DGX個人計算系統

    NVIDIA 宣布,多家行業領先系統制造商將打造 NVIDIA DGX Spark。
    的頭像 發表于 05-22 09:39 ?187次閱讀

    薩瑞微電子SiC 和 GaN賦能AI服務器電源系統

    01AI服務器電源的核心挑戰與技術需求超高功率密度:單機架功率已從傳統服務器的數千瓦提升至數十千瓦(如英偉達DGX-2需10kW,未來GB300芯片預計達1.4kW單芯片功耗),要求電源方案在有
    的頭像 發表于 04-03 14:41 ?319次閱讀
    薩瑞微電子SiC 和 GaN賦能AI服務器電源系統

    NVIDIA 宣布推出 DGX Spark 個人 AI 計算機

    DGX? 個人 AI 超級計算機。 ? DGX Spark(前身為 Project DIGITS)支持 AI 開發者、研究人員、數據科學家和學生,在臺式電腦上對大模型進行原型設計、微調和推理。用
    發表于 03-19 09:59 ?280次閱讀
       NVIDIA 宣布推出 <b class='flag-5'>DGX</b> Spark 個人 AI 計算機

    OpenVINO?檢測到GPU,但網絡無法加載到GPU插件,為什么?

    GPU 插件。 遇到的錯誤: OpenVINOException: cldnn program build failed! Program build failed(2_part_0)
    發表于 03-05 06:01

    ASIC和GPU的原理和優勢

    ? 本文介紹了ASIC和GPU兩種能夠用于AI計算的半導體芯片各自的原理和優勢。 ASIC和GPU是什么 ASIC和GPU,都是用于計算功能的半導體芯片。因為都可以用于AI計算,所以也被稱為
    的頭像 發表于 01-06 13:58 ?1460次閱讀
    ASIC和<b class='flag-5'>GPU</b>的原理和優勢

    《CST Studio Suite 2024 GPU加速計算指南》

    2. 操作系統支持:CST Studio Suite在不同操作系統上持續測試,可在支持的操作系統上使用GPU計算,具體參考相關文檔。 3. 許可證:GPU計算功能通過CST Studio Suite
    發表于 12-16 14:25

    預計2024年全球GPU市場銷售額將超985億美元

    根據市場研究機構Jon Peddie Research(JPR)最新發布的預測數據,2024年全球GPU市場的銷售額預計將超過985億美元,這一數字凸顯出GPU市場的強勁增長勢頭。
    的頭像 發表于 11-15 16:26 ?739次閱讀

    【一文看懂】大白話解釋“GPUGPU算力”

    GPUGPU算力1.GPU是什么?2.GPU與CPU的區別?3.GPU算力是什么?4.哪些因素影響了G
    的頭像 發表于 10-29 08:05 ?2256次閱讀
    【一文看懂】大白話解釋“<b class='flag-5'>GPU</b>與<b class='flag-5'>GPU</b>算力”

    為什么被稱為超級電容?超級電容怎么用?

    說起電容的作用,很多電子人脫口而出:濾波。沒錯,這是大部分電容在電路中的作用,但有一種電容生而不是為了濾波,那就是超級電容。本期貿澤科普實驗室,momo就為大家說一說超級電容。
    的頭像 發表于 10-24 10:15 ?3037次閱讀
    為什么<b class='flag-5'>被稱為</b>超級電容?超級電容怎么用?

    NVIDIA DGX B200首次面向零售市場:配備8塊B200 GPU

    10月13日最新消息,NVIDIA的DGX B200 AI服務器近期已在Broadberry上架,標價515,410美元(相當于約364.2萬元人民幣)。   自發布以來,Blackwell架構就備受業界矚目,NVIDIA首席執行官黃仁勛對其贊譽有加,微軟、Meta等科技巨頭也迅速跟進采用。
    的頭像 發表于 10-14 14:34 ?1706次閱讀

    TI TDA2x SoC上基于GPU的環視優化

    電子發燒友網站提供《TI TDA2x SoC上基于GPU的環視優化.pdf》資料免費下載
    發表于 10-10 09:14 ?0次下載
    TI TDA<b class='flag-5'>2</b>x SoC上基于<b class='flag-5'>GPU</b>的環視優化

    3DP工藝最大的優勢是什么

    3DP(Three Dimensional Printing and Gluing)工藝,也被稱為三維打印黏結成型、噴墨沉積或粘合噴射、噴墨粉末打印,是一種先進的3D打印技術。其最大的優勢主要體現在以下幾個方面:
    的頭像 發表于 09-16 15:37 ?1618次閱讀

    被稱為“小號HBM”,華邦電子CUBE進階邊緣AI存儲

    電子發燒友網報道(文/黃晶晶)與AI訓練以GPU搭配HBM不同,邊緣AI采用何種內存方式,DDR、GDDR、LPDDR等適用于不同的場景。日前,華邦電子產品總監朱迪接受包括電子發燒友網在內的媒體采訪
    的頭像 發表于 07-01 16:21 ?3934次閱讀

    聚徽觸控-GPU 工控機是什么產品

    圖像處理器(Graphics Processing Unit,簡稱 GPU),又被稱為視覺處理單元、圖形核心,其設計專注于特定的任務,主要用于加速幀緩沖區中實時的 3D 圖像構建以及顯示相關的電子運算。通常,GPU 與中央處理器
    的頭像 發表于 06-14 09:57 ?460次閱讀
    主站蜘蛛池模板: 日本成片免费高清 | 四虎国产精品高清在线观看 | 国产免费黄视频 | 国产免费一区二区三区 | 黄色网网址 | 国产乱码一区二区三区四川人 | 99国产精品久久久久久久成人热 | www.色亚洲 | 欧美性猛交ⅹxxx乱大交免费 | 免费毛片网 | 天天久久影视色香综合网 | 男啪女色黄无遮挡免费视频 | 99久久国产综合精品国 | 天天爱天天操天天射 | 欧美日韩国产一区二区三区不卡 | 国产一区二区三区毛片 | 亚洲资源在线播放 | 日韩一级黄色录像 | 久久精品操 | 国产激烈床戏无遮挡在线观看 | 黄色大片网站 | 午夜天堂影院 | 欧美极品另类xxx | 婷婷亚洲综合五月天小说在线 | julia一区二区三区中文字幕 | 免费在线观看你懂的 | 视频在线视频免费观看 | 偷偷狠狠的日日2020 | 天堂网av2014| 天天视频官网天天视频在线 | 日韩成a人片在线观看日本 日韩成人黄色 | 第四色视频 | 天天搞夜夜 | 国产色秀视频在线观看 | 亚洲成人www| 极品色天使在线婷婷天堂亚洲 | 亚洲欧美在线精品一区二区 | 欧美ol丝袜高跟秘书在线播放 | 三级在线看 | 天天视频免费观看高清影视 | 快色视频免费 |