完美世界前传下载,女强穿越玄幻完结小说,武道至尊帝临小说

NVIDIA Grace CPU 是 NVIDIA 開發的第一個數據中心 CPU 。它是從頭開始建造的，以創建世界上第一個超級芯片。

旨在提供卓越的性能和能效，以滿足現代數據中心工作負載的供電需求數字孿生，云游戲和圖形，人工智能和高性能計算（ HPC ） NVIDIA Grace CPU 具有 72 個 Armv9 GPU 內核，實現 Arm 可伸縮向量擴展第二版（ SVE2 ）指令集。核心還包括具有嵌套虛擬化功能和 S-EL2 支持的虛擬化擴展。

NVIDIA Grace CPU 還符合以下 Arm 規范：

RAS v1.1 通用中斷控制器（ GIC ） v4.1

內存分區和監視（ MPAM ）

系統內存管理單元（ SMMU ） v3.1

Grace CPU 被構建為與 NVIDIA Hopper GPU 創建用于大規模人工智能訓練、推理和高性能計算的 NVIDIA Grace CPU 超級芯片，或與另一個 Grace CPU ，構建高性能［Z1K22］，以滿足高性能計算和云計算工作負載的需求。

繼續閱讀，了解 Grace CPU 的主要功能。

使用 NVLink-C2C 的高速芯片間互連

Grace Hopper 和 Grace 超級芯片均由 NVIDIA NVLink-C2C 高速芯片間互連，用作超級芯片通信的主干。

NVLink-C2C 擴展 NVIDIA NVLink 用于連接服務器中的多個 GPU ，以及使用 NVLink 交換機系統連接多個 GPU 節點。

NVLink-C2C 在封裝上的裸片之間具有 900GB / s 的原始雙向帶寬，提供了 PCIe Gen 5 x16 鏈路的 7 倍帶寬（與使用 NVLink 時 NVIDIA Hopper GPU 之間可用的帶寬相同）和更低的延遲。 NVLink-C2C 還只需要傳輸 1.3 微微焦耳/位，這是 PCIe Gen 5 能效的 5 倍以上。

NVLink-C2C 也是一種相干互連，在使用 Grace CPU 超級芯片對標準相干［Z1K22］平臺以及使用 Grace Hopper 超級芯片的異構編程模型進行編程時，能夠實現一致性。

使用 NVIDIA Grace CPU 的符合標準的平臺

NVIDIA Grace CPU 超級芯片旨在為軟件開發人員提供符合標準的平臺。 Arm 提供了一套規范，作為其系統就緒計劃的一部分，旨在為 Arm 生態系統帶來標準化。

Grace CPU 以 Arm 系統標準為目標，提供與現成操作系統和軟件應用程序的兼容性， Grace CPU 將從一開始就利用 NVIDIA Arm 軟件堆棧。

Grace CPU 還符合 Arm 服務器基礎系統架構（ SBSA ），以實現符合標準的硬件和軟件接口。此外，為了在基于 Grace CPU 的系統上啟用標準引導流， Grace CPU 被設計為支持 Arm 服務器基本引導要求（ SBBR ）。

對于緩存和帶寬分區以及帶寬監控， Grace CPU 還支持 Arm 內存分區和監控（ MPAM ）。

Grace CPU 還包括 Arm 性能監控單元，允許對 GPU 內核以及片上系統（ SoC ）架構中的其他子系統進行性能監控。這使得標準工具（如 Linux perf ）可以用于性能調查。

帶 Grace Hopper 超級芯片的統一內存

NVIDIA Grace Hopper 超級芯片將 Grace CPU 與 Hopper GPU 相結合，擴展了 CUDA 在 CUDA 8.0 中首次引入的統一內存編程模型。

NVIDIA Grace Hopper 超級芯片引入了具有共享頁表的統一內存，允許 Grace CPU 和 Hopper GPU 與 CUDA 應用程序共享地址空間甚至頁表。

Grace Hopper GPU 還可以訪問可分頁內存分配。 Grace Hopper 超級芯片允許程序員使用系統分配器分配 GPU 內存，包括與 GPU 交換指向malloc內存的指針。

NVLink-C2C 支持 Grace CPU 和 Hopper GPU 之間的本機原子支持，釋放了 CUDA 10.2 中首次引入的 C ++原子的全部潛力。

NVIDIA 可伸縮一致性結構

Grace CPU 介紹了 NVIDIA 可伸縮一致性結構（ SCF ）。由 NVIDIA 設計的 SCF 是一種網格結構和分布式緩存，旨在根據數據中心的需要進行擴展。 SCF 提供 3.2 TB / s 的二等分帶寬，以確保 NVLink-C2C 、 CPU 核心、內存和系統 IO 之間的數據流量。

圖 1.隨 Grace CPU 引入的 NVIDIA 可伸縮一致性結構圖

單個 Grace CPU 包含 72 個 GPU 內核和 117MB 緩存，但 SCF 的設計可擴展性超出此配置。當兩個 Grace CPU 組合形成一個 Grace 超級芯片時，這些數字分別增加到 144 個 CPU 核和 234MB 的 L3 緩存。

CPU 核心和 SCF 緩存分區（ SCC ）分布在整個網格中。緩存交換節點（ CSN ）通過結構路由數據，并充當 CPU 核心、緩存內存和系統其余部分之間的接口，從而實現整個系統的高帶寬。

內存分區和監視

Grace CPU 集成了對內存系統資源分區和監控（ MPAM ）功能的支持，這是 Arm 對系統緩存和內存資源進行分區的標準。

MPAM 通過向系統內的請求者分配分區 ID （ PartID ）來工作。這種設計允許基于其各自的分區對資源（如緩存容量和內存帶寬）進行分區或監控。

Grace CPU 中的 SCF 緩存支持使用 MPAM 對緩存容量和內存帶寬進行分區。此外，性能監視組（ PMG ）可用于監視資源使用情況。

利用內存子系統提高帶寬和能效

為了提供卓越的帶寬和能效， Grace CPU 實現了 32 通道 LPDDR5X 內存接口。這提供了高達 512GB 的內存容量和高達 546GB / s 的內存帶寬。

擴展 GPU 存儲器

Grace Hopper 超級芯片的一個關鍵特征是引入了擴展 GPU 內存（ EGM ）。通過允許從更大的 NVLink 網絡連接的任何漏斗 GPU 訪問連接到 Grace Hopper 超級芯片中 Grace CPU 的 LPDDR5X 內存，大大擴展了 GPU 可用的內存池。

圖 2.漏斗 GPU 可以使用 NVLink-C2C 訪問遠程 Grace CPU 的存儲器

GPU 到 – GPU NVLink 和 NVLink-C2C 雙向帶寬在超級芯片中匹配，這使得料斗 GPU 能夠以 NVLink 本地速度訪問 Grace CPU 存儲器。

使用 LPDDR5X 平衡帶寬和能效

為 Grace CPU 選擇 LPDDR5X 是因為需要在大規模 AI 和 HPC 工作負載的帶寬、能效、容量和成本之間取得最佳平衡。

雖然四站點 HBM2e 內存子系統將提供大量內存帶寬和良好的能效，但其成本將是 DDR5 或 LPDDR5X 每 GB 成本的 3 倍以上。

此外，這種配置將僅限于 64GB 的容量，這是具有 LPDDR5X 的 Grace CPU 可用的最大容量的八分之一。

與更傳統的八通道 DDR5 設計相比， Grace CPU LPDDR5X 內存子系統提供了高達 53% 的帶寬，并大大提高了功率效率，每千兆字節只需要八分之一的功率。

圖 3.HBM2e （ 4 個站點）、 DDR5 （ 8 通道）和 LPDDR5x （ 32 通道）內存選項的容量、帶寬、功率和成本比較

LPDDR5X 卓越的功率效率使得能夠將更多的總功率預算分配給計算資源，例如 CPU 核或 GPU 流式多處理器（ SMs ）。

NVIDIA Grace CPU 輸入/輸出

Grace CPU 整合了一系列高速 I / O ，以滿足現代數據中心的需求。 Grace CPU SoC 提供多達 68 條 PCIe 連接通道和多達 4 條 PCIe Gen 5 x16 鏈路。每個 PCIe Gen 5 x16 鏈路提供高達 128GB / s 的雙向帶寬，并可進一步分叉為兩個 PCIe Gen 5×8 鏈路，以實現額外的連接。

圖 4.Grace I / O 功能多達 68 條 PCIe 通道、 12 條相干 NVLINK 通道和 NVLINK-C2C

這種連接是對片上 NVLink-C2C 鏈路的補充，該鏈路可用于將 Grace CPU 連接到另一個 Grace CPU ，或連接到 NVIDIA Hopper GPU 。

NVLink 、 NVLink-C2C 和 PCIe Gen 5 的組合為 Grace CPU 提供了豐富的連接選項套件和擴展現代數據中心性能所需的充足帶寬。

NVIDIA Grace CPU 性能

NVIDIA Grace CPU 設計用于在單芯片和 Grace 超級芯片配置中提供卓越的計算性能，估計SPECrate2017_int_base得分分別為 370 和 740 。這些預硅估計基于 GNU 編譯器集合（ GCC ）的使用。

圖 5.單個 Grace CPU （左）和 Grace 超級芯片（右）的規格速率估計。來源：預硅估計性能（可能會更改）。

內存帶寬對于設計 Grace CPU 的工作負載至關重要，在流基準測試中，單個 Grace CPU ，預計可提供高達 536GB / s 的實際帶寬，占芯片峰值理論帶寬的 98% 以上。

圖 6.MemRead 、 MemSet 、 MemCopy 和 MemTriad 的 Grace CPU 內存基準測試結果（從左到右）

最后，料斗 GPU 和 Grace CPU 之間的帶寬對于最大化 Grace 料斗超級芯片的性能至關重要。 GPU 對 – CPU 內存的讀和寫預計分別為 429GB / s 和 407GB / s ，分別代表 NVLink-C2C 峰值理論單向傳輸速率的 95% 和 90% 以上。

綜合讀寫性能預計為 506GB / s ，占單個 NVIDIA Grace CPU SoC 可用峰值理論內存帶寬的 92% 以上。

圖 7.Hopper GPU 到 Grace memory 基準測試結果

NVIDIA Grace CPU 超級芯片的優勢

NVIDIA Grace CPU 超級芯片擁有 144 個核心和 1TB / s 的內存帶寬，將為基于 CPU 的高性能計算應用提供前所未有的性能。 HPC 應用程序是計算密集型應用程序，需要性能最高的核心、最高的內存帶寬和每個核心的正確內存容量，以加快結果。

NVIDIA 正在與領先的 HPC 、超級計算、超尺度和云客戶合作，開發 Grace CPU 超級芯片。 Grace CPU 超級芯片和 Grace Hopper 超級芯片預計將于 2023 年上半年上市。

關于作者

Jonathon Evans 是 NVIDIA 杰出工程師，也是 NVIDIA Grace CPU 的架構主管。 Jonathon 于 2007 年加入 NVIDIA ，成為 GPU 架構團隊的成員。他之前在 GPU 方面的工作包括領導 GPU 的上下文管理和調度硬件團隊，以及對異步計算、統一內存、多實例 GPU 和 WDDM 硬件調度的貢獻。

Ashraf Eassa 是NVIDIA 加速計算集團內部的高級產品營銷經理。

審核編輯：郭婷

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

控制器

控制器

+關注

關注
112

文章
16448

瀏覽量
179465
cpu

cpu

+關注

關注
68

文章
10905

瀏覽量
213030
NVIDIA

NVIDIA

+關注

關注
14

文章
5076

瀏覽量
103728

MediaTek與NVIDIA攜手設計GB10 Grace Blackwell超級芯片

MediaTek與NVIDIA近日宣布了一項重要合作，雙方將共同設計NVIDIA GB10 Grace Blackwell超級芯片。這款超級

發表于 01-13 10:48 ?181次閱讀

MediaTek與NVIDIA攜手打造超級芯片

的個人AI超級計算機項目NVIDIA? Project DIGITS中，標志著兩家科技巨頭在AI計算領域的深度合作。 MediaTek作為全球領先的

發表于 01-10 13:49 ?182次閱讀

MediaTek與NVIDIA攜手打造GB10 Grace Blackwell超級芯片

MediaTek近日正式宣布與NVIDIA攜手合作，共同設計NVIDIA GB10 Grace Blackwell超級芯片。這款芯片將被應用

發表于 01-08 15:32 ?334次閱讀

NVIDIA推出個人AI超級計算機Project DIGITS

NVIDIA 推出個人 AI 超級計算機 NVIDIA Project DIGITS，全球的 AI 研究員、數據科學家和學生都可獲取

發表于 01-08 11:03 ?356次閱讀

聯發科與NVIDIA合作為NVIDIA 個人AI超級計算機設計NVIDIA GB10超級芯片

聯發科近日宣布與NVIDIA合作設計NVIDIA GB10 Grace Blackwell超級芯片，將應用于NVIDIA 的個人

發表于 01-07 16:26 ?194次閱讀

賴耶科技通過NVIDIA AI Enterprise平臺打造超級AI工廠

與 NVIDIA 技術團隊保持合作。賴耶科技通過NVIDIA AI Enterprise平臺打造的超級 AI 工廠，致力于加速大模型場景應用

發表于 11-19 14:55 ?490次閱讀

維諦技術(Vertiv)：未來HPC，你想象不到的酷炫變革！

隨著AI技術的迅猛發展，高性能計算（HPC）也迎來了新的變革浪潮。在2024全球超級計算機Green500排行榜上，位列前三的超算都采用了“超智融合”的技術理念。超級大腦+

發表于 10-30 11:12 ?313次閱讀

NVIDIA 以太網加速 xAI 構建的全球最大 AI 超級計算機

市的 Colossus 超級計算機集群達到了 10 萬顆 NVIDIA? Hopper? GPU 的巨大規模。該集群使用了 NVIDIA Spectrum-X? 以太網網絡平臺，該平臺是專為多租戶

發表于 10-30 09:33 ?179次閱讀

NVIDIA助力丹麥發布首臺AI超級計算機

這臺丹麥最大的超級計算機由該國政府與丹麥 AI 創新中心共同建設，是一臺 NVIDIA DGX SuperPOD 超級計算機。

發表于 10-27 09:42 ?510次閱讀

NVIDIA AI Foundry 為全球企業打造自定義 Llama 3.1 生成式 AI 模型

借助 NVIDIA AI Foundry，企業和各國現在能夠使用自有數據與 Llama 3.1 405B 和 NVIDIA Nemotron 模型配對，來構建“超級模型”

發表于 07-24 09:39 ?744次閱讀

NVIDIA AI Enterprise榮獲金獎

NVIDIA AI Enterprise、GH200 Grace Hopper 超級芯片和 Spectrum-X 在 COMPUTEX 2024 獲得認可。

發表于 05-29 09:27 ?499次閱讀

助力科學發展，NVIDIA AI加速HPC研究

科學家和研究人員正在利用 NVIDIA 技術將生成式 AI 應用于代碼生成、天氣預報、遺傳學和材料科學領域的 HPC 工作。

發表于 05-14 09:17 ?464次閱讀

進一步解讀英偉達 Blackwell 架構、NVlink及GB200 超級芯片

2024年3月19日，[英偉達]CEO[黃仁勛]在GTC大會上公布了新一代AI芯片架構BLACKWELL，并推出基于該架構的超級芯片GB200，將助推數據處理、

發表于 05-13 17:16

NVIDIA推出搭載GB200 Grace Blackwell超級芯片的NVIDIA DGX SuperPOD?

NVIDIA 于太平洋時間 3 月 18 日發布新一代 AI 超級計算機 —— 搭載 NVIDIA GB200 Grace Blackwell 超級

發表于 03-21 09:49 ?810次閱讀

NVIDIA 推出 Blackwell 架構 DGX SuperPOD，適用于萬億參數級的生成式 AI 超級計算

基于先進的 NVIDIA 網絡、NVIDIA 全棧 AI 軟件和存儲技術，可將集群中 Grace Blackwell 超級芯片的數量擴展至數

發表于 03-19 10:56 ?479次閱讀