在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Nvidia與AMD新芯片,突破PCIe瓶頸

架構師技術聯盟 ? 來源:半導體行業觀察 ? 2024-03-08 14:15 ? 次閱讀

學過微處理器的同學可能還記得,最初的8086/8088處理器沒有浮點單元。主板通常有一個額外的插槽,用于可選的8087 數學協處理器。數學協處理器進入了 CPU 本身,如今,CPU 沒有可選的數學協處理器。 然而,SIMD處理器(例如GPU)有多種選擇。眾所周知,GPU 可以比 CPU 主機更快地加速數學處理(例如矩陣運算)。 隨著Nvidia GH-200 處理器 和AMD MI300A APU的推出,市場正在見證“8087 時刻”——即 CPU 吸收外部性能硬件。Nvidia 和 AMD 都已將 GPU 納入處理器中,其結果是 HPC 性能大幅躍升,并預示著未來的發展。

再見 PCI

AMD 和 Nvidia 的 GPU 都依賴 PCI 總線與 CPU 進行通信。CPU 和 GPU 有兩個不同的內存域,數據必須通過 PCI 接口從 CPU 域移動到 GPU 域(并返回)。 使用第 5 代 PCIe 總線中全部 16 個通道的 GPU 的最大帶寬約為 63GB/s。此瓶頸將限制 CPU 和 GPU 之間的內存移動。 Nvidia GH200 通過 900 GB/s 雙向 NVLink-C2C 連接 Grace CPU 和 Hooper GPU。結果大約快了 14 倍。此外,GH200 還帶來了單一共享 CPU-GPU 內存域的優勢。無需通過 PCI 總線在 CPU 和 GPU 之間移動數據。如圖 1 所示,CPU 和 GPU 對所有內存具有一致的視圖。CPU內存高達480GB LPDDR5X(帶ECC),GPU具有96GB HBM3或144GB HBM3e。總的相干(單域)內存在 576GB 到 624GB 之間。

b11a4e16-dcdf-11ee-a297-92fbcf53809c.jpg

當前的 AMD Instinct MI300A APU 中采用單一內存域,具有 128 GB HBM3 內存,使用 Infinity Fabric 在 CPU 和 GPU 之間一致共享,封裝峰值吞吐量為 5.3 TB/s 。雖然 MI300A 目前不支持像 GH200 那樣額外的 DDR 內存擴展,但CXL是一個值得將來記住的詞。 對于 GH200 和 MI300A,關鍵的突出短語是“呈現單個存儲域”。在傳統的CPU-PCIe-GPU組合中,GPU內存量通常小于CPU內存,數據必須通過PCIe接口進行混洗。這兩個新設計消除了這個瓶頸。單個大內存域一直對 HPC 有吸引力,而 GenAI 的增長加速了這種需求(即,能夠在內存中加載大型模型并使用 GPU 運行它們)。對于傳統 GPU,GPU 內存量限制了模型大小,需要采用分布式 GPU 方法。(注:GH200 可以通過外部 NVLink 連接,創建海量統一內存;例如,Nvidia-AWS NLV32可以提供高達 20 TB 的統一內存。)

離你的桌面并不遠

技術領域明顯的趨勢之一是從昂貴的新技術市場轉向低成本的大宗商品市場。高性能計算也不例外。隨著市場需求,從多核到高級內存的一切都已從高端轉移到“手機”。遷移到單個內存域就是這些變化之一。 最近,在 Linux 基準測試網站Phoronix上,杰出的測試員Michael Larabel在 GH200 工作站上運行了 HPC 基準測試。該系統由德國的GPTshop.ai提供。 據了解,系統塔式機箱配備 GH200 Grace Hopper Superchip,配備 576G 內存、雙 2000+ W 電源、QCT 主板以及多種配置選項,包括 SSD 和 NVIDIA Bluefield/Connect-X 適配器。一項有趣且有用的功能是TDP可以從 450W 編程到 1000W(CPU + GPU + 內存),這在非數據中心環境中應該很有用。另外,默認風冷噪音據稱為25分貝。液體冷卻也是一種選擇。 然而,桌面超級工作站并不便宜。目前可用的型號 GH200 576GB起價為 47,500 歐元(根據 Phoronix 的說法,由于在歐盟以外地區運輸時無需繳納 19% 的增值稅,因此該價格相當于 41,000 美元) 這個價格可能看起來很高,但考慮到具有 80 GB HBM2e 內存的 Nvidia H100 PCIe GPU 目前的市場價格在 3 萬美元到 3.5 萬美元之間。這不包括為 GPU 供電和運行的主機系統。此外,用戶還受到 80GB GPU 內存的限制,該內存通過 PCIe 總線與主內存域分開。 GPTshop工作站提供576GB的單域內存。HPC 和 GenAI 用戶會發現這半 TB 的 CPU-GPU 內存很有吸引力。

初步基準

借助 GPTshop,Phoronix 能夠遠程運行多個基準測試。基準應被視為初步的,而不是最終的績效衡量標準。特別是,基準測試僅針對 CPU,沒有使用 Hopper A100 GPU。因此,基準圖是不完整的。Phoronix 計劃在未來測試基于 GPU 的應用程序。 據 Phoronix 稱,Ubuntu 23.10 與 Linux 6.5 一起使用 GCC-13 作為標準編譯器。使用類似的環境來測試可比較的處理器,包括 Intel Xeon Scalable、AMD EPYC 和 Ampere Altra Max 處理器。完整的列表可以在Phoronix 網站上找到。 此外,沒有可用于基準測試運行的功耗數據。據 Phoronix 稱,NVIDIA GH200 目前似乎沒有在 Linux 下公開任何 RAPL/PowerCap/HWMON 接口,僅用于讀取 GH200 的功率/能源使用情況。系統上的BMC確實通過Web界面暴露了整個系統的功耗,并且功率數據沒有通過IPMI暴露。 盡管存在這些限制,一些重要的基準測試還是首次在 Nvidia 之外的 GH200 上運行。

好奧萊 HPCG

Phoronix 報告的第一個測試是標準HPCG內存帶寬基準測試,如圖 2 所示。

b1241b1c-dcdf-11ee-a297-92fbcf53809c.png

可以看出,GH200 Arm 的性能達到了可觀的 42 GFLOPS,略高于 Xeon Platinum 8380 2P(40 GFLOPS),略低于 EPYC 9654 Genoa 2P(44 GFLOPS)。另外值得注意的是 72 核 Arm Grace CPU,其性能幾乎是 Ampere Altra Max 128 核 Arm 處理器的兩倍。 GH200 在其他基準測試中表現良好。最令人印象深刻的結果如圖 3 所示。使用 72 核 Arm GH200 的NWChem(C240-Bucky Ball) 運行時間為 1404 秒,僅落后于領先者 128 核 Epyc 9554 (2p),成績為 1323 秒。

b12f04c8-dcdf-11ee-a297-92fbcf53809c.png

即將發生的事情

Nvidia GH200 和 AMD MI300A 引入了新的處理器架構。與吸收 8087 數學協處理器類似,高端 CPU 也開始吸收 GPU(或 SIMD 處理單元)。然而,這個想法并不是全新的。自 2011 年以來,AMD 已將中等 GPU 集成到其臺式機/筆記本電腦APU 處理器中。雖然這些高端處理器可能被認為是“專用”的,因此價格昂貴,但隨著時間的推移,對 GenAI 的巨大興趣可能會將這些設計推向商品價格點。隨著更多基準的出現,這個故事將繼續發展。 此外,引入具有足夠內存的個人高性能工作站,可以在您的辦公桌旁運行一些最大的法學碩士,這是一個重要的里程碑。更不用說運行許多大內存 GPU 優化的 HPC 應用程序的能力了。數據中心和云仍將是當今的主力,但必須要說的是“擁有重置按鈕”。

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • amd
    amd
    +關注

    關注

    25

    文章

    5539

    瀏覽量

    135577
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11008

    瀏覽量

    215112
  • NVIDIA
    +關注

    關注

    14

    文章

    5188

    瀏覽量

    105398
  • PCIe
    +關注

    關注

    16

    文章

    1300

    瀏覽量

    84358

原文標題:Nvidia和AMD新芯片,突破PCIe限制

文章出處:【微信號:架構師技術聯盟,微信公眾號:架構師技術聯盟】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    無線AP該如何突破瓶頸

    無線AP的市場競爭非常激烈,相比于無線路由器只需要部署單一設備,無線AP還需要集中管理的AC或者云管理平臺進行統一管理,所以成套的解決方案應用非常考驗廠商的技術實力。但無線AP在應用中也有些瓶頸需要
    發表于 08-18 16:58

    智能家居發展的瓶頸是什么?如何才能突破瓶頸

    智能家居發展的瓶頸是什么?如何才能突破瓶頸?智能家居是一個讓人又愛又恨的行業,智能家居在2013年就聲名遠播,并且被家居企業、互聯網企業以及諸多相關企業看好。然而幾年時間過去了,智能家居的發展卻不
    發表于 01-31 17:10

    NVIDIA GRID是否支持此解決方案?

    嗨,目前我正在尋找支持10位硬件輸出技術的VDI的vGPU板,取自AMD網站(https://www.amd.com/Documents/10-Bit.pdf)。該解決方案用于讀取需要10位硬件輸出
    發表于 10-10 16:12

    智能音箱遇上瓶頸有待突破改善

    突破瓶頸。尤其是中國語言的博大精深,盡管現如今的智能音箱可以接受到普通指令,但在很多方面來說智能音箱還有待進步。`
    發表于 11-20 15:02

    Intel與AMD聯手對抗NVIDIA 最后結果怎么樣

    將業務核心放在服務器芯片市場的Intel,和在服務器芯片市場顯示出強烈的企圖心NVIDIA形成了一種鮮明的對比,為此Intel后續與AMD達成合作,增強自己的實力應對
    發表于 01-06 11:34 ?1207次閱讀

    一文分析Intel、AMDNVIDIA芯片巨頭的角逐形式

    近日,AMDZen3桌面端處理器正式發布,算是把Intel、AMDNVIDIA三大通用芯片巨頭近幾年的激烈角逐推向了一個高潮。
    的頭像 發表于 10-15 09:49 ?1750次閱讀

    AMDNVIDIA和英特爾三巨頭的晶圓暗戰影響我國芯片發展

    近日,AMD Zen 3桌面端處理器正式發布,算是把Intel、AMDNVIDIA三大通用芯片巨頭近幾年的激烈角逐推向了一個高潮。
    的頭像 發表于 10-15 11:15 ?3438次閱讀

    SAM技術解決CPU與GPU瓶頸問題 AMD希望與NVIDIA、Intel合作

    。 SAM技術解決了CPU與GPU之間的一個瓶頸問題。 在傳統的基于Windows的計算機系統中,處理器一次只能訪問256MB顯存 (VRAM),因此限制了系統性能。 通過AMD Smart Access
    的頭像 發表于 11-21 11:47 ?3189次閱讀

    通過NVIDIA超級芯片和軟件實現性能突破

    超級計算機、儀器和不斷擴展的量子計算生態系統將通過 NVIDIA 超級芯片和軟件實現性能突破
    的頭像 發表于 06-01 10:46 ?1676次閱讀

    AMD談模塊化芯片的未來

    AMD 的小芯片戰略基于臺積電的 CoWoS(Chip-on-Wafer-on-Substrate)封裝技術,該技術也得到了 Nvidia 和 Apple 的支持。Nvidia 歡迎第
    的頭像 發表于 06-16 11:59 ?1943次閱讀
    <b class='flag-5'>AMD</b>談模塊化<b class='flag-5'>芯片</b>的未來

    基于AMD FPGA的PCIE DMA邏輯實現

    AMD FPGA自帶PCIE硬核,實現了PCIE協議,把串行數據轉換為并行的用戶數據,以UltraScale系列FPGA為例,其支持Gen1.02.03.04.0,1~16 Lanes,如下圖所示。
    的頭像 發表于 06-09 09:34 ?2190次閱讀
    基于<b class='flag-5'>AMD</b> FPGA的<b class='flag-5'>PCIE</b> DMA邏輯實現

    基于AMD FPGA的PCIE DMA邏輯實現

    AMD FPGA自帶PCIE硬核,實現了PCIE協議,把串行數據轉換為并行的用戶數據
    的頭像 發表于 07-14 15:53 ?1786次閱讀
    基于<b class='flag-5'>AMD</b> FPGA的<b class='flag-5'>PCIE</b> DMA邏輯實現

    SiC襯底,產業瓶頸亟待突破.zip

    SiC襯底,產業瓶頸亟待突破
    發表于 01-13 09:06 ?3次下載

    AMD Versal? Adaptive SoC CPM PCIE PIO EP設計CED示例

    本文可讓開發者們看懂 AMD Vivado Design Tool 2023.2 中的“AMD Versal Adaptive SoC CPM PCIE PIO EP 設計”CED 示例。?
    的頭像 發表于 05-10 09:39 ?836次閱讀
    <b class='flag-5'>AMD</b> Versal? Adaptive SoC CPM <b class='flag-5'>PCIE</b> PIO EP設計CED示例

    AMDNVIDIA GPU優缺點

    在圖形處理單元(GPU)市場,AMDNVIDIA是兩大主要的競爭者,它們各自推出的產品在性能、功耗、價格等方面都有著不同的特點和優勢。 一、性能 GPU的性能是用戶最關心的指標之一。在高端市場
    的頭像 發表于 10-27 11:15 ?1831次閱讀
    主站蜘蛛池模板: 色女人综合| 精品国产中文一级毛片在线看 | 欧美精品亚洲网站 | 视频网站免费看 | 四虎国产精品成人永久免费影视 | 性色欧美xo影院 | 四虎影视永久在线 yin56xyz | 九色综合久久综合欧美97 | 影院午夜 | 欧美成人三级网站 | 日韩一级片免费观看 | 色女仆影院 | 丁香六月色婷婷综合网 | 九九热在线免费 | 国产亚洲欧美成人久久片 | 国产男女交性视频播放免费bd | 美女扒开尿口给男人爽免费视频 | 四虎网站 | 亚洲天天做日日做天天看2018 | 男人操女人免费视频 | 美女黄页网站免费进入 | 国产va免费精品高清在线观看 | 色综合天天综久久久噜噜噜久久〔 | 日本成人免费网站 | 成人三级视频 | 成人午夜啪啪免费网站 | 国产免费私拍一区二区三区 | 高清午夜毛片 | 99在线国产| 国产3p在线播放 | 美女扒开尿口给男人桶视频免费 | 综合爱爱| 成年美女 | 国产三级日本三级在线播放 | 亚洲精品蜜桃久久久久久 | 色费女人18女人毛片免费视频 | 亚欧成人乱码一区二区 | 午夜看毛片 | 日韩夜夜操 | 99草在线观看 | 精品久久久久久午夜 |