NVIDIA Grace CPU 是 NVIDIA 開發的第一個數據中心 CPU 。它是從頭開始建造的,以創建 世界上第一個超級芯片 。
旨在提供卓越的性能和能效,以滿足現代數據中心工作負載的供電需求 數字孿生 , 云游戲和圖形 , 人工智能 和 高性能計算 ( HPC ) NVIDIA Grace CPU 具有 72 個 Armv9 GPU 內核,實現 Arm 可伸縮向量擴展第二版 ( SVE2 )指令集。核心還包括具有嵌套虛擬化功能和 S-EL2 支持的虛擬化擴展。
NVIDIA Grace CPU 還符合以下 Arm 規范:
內存分區和監視( MPAM )
系統內存管理單元( SMMU ) v3.1
Grace CPU 被構建為與 NVIDIA Hopper GPU 創建用于大規模人工智能訓練、推理和高性能計算的 NVIDIA Grace CPU 超級芯片,或與另一個 Grace CPU ,構建高性能[Z1K22],以滿足高性能計算和云計算工作負載的需求。
繼續閱讀,了解 Grace CPU 的主要功能。
使用 NVLink-C2C 的高速芯片間互連
Grace Hopper 和 Grace 超級芯片均由 NVIDIA NVLink-C2C 高速芯片間互連,用作超級芯片通信的主干。
NVLink-C2C 擴展 NVIDIA NVLink 用于連接服務器中的多個 GPU ,以及使用 NVLink 交換機系統連接多個 GPU 節點。
NVLink-C2C 在封裝上的裸片之間具有 900GB / s 的原始雙向帶寬,提供了 PCIe Gen 5 x16 鏈路的 7 倍帶寬(與使用 NVLink 時 NVIDIA Hopper GPU 之間可用的帶寬相同)和更低的延遲。 NVLink-C2C 還只需要傳輸 1.3 微微焦耳/位,這是 PCIe Gen 5 能效的 5 倍以上。
NVLink-C2C 也是一種相干互連,在使用 Grace CPU 超級芯片對標準相干[Z1K22]平臺以及使用 Grace Hopper 超級芯片的異構編程模型進行編程時,能夠實現一致性。
使用 NVIDIA Grace CPU 的符合標準的平臺
NVIDIA Grace CPU 超級芯片旨在為軟件開發人員提供符合標準的平臺。 Arm 提供了一套規范,作為其系統就緒計劃的一部分,旨在為 Arm 生態系統帶來標準化。
Grace CPU 以 Arm 系統標準為目標,提供與現成操作系統和軟件應用程序的兼容性, Grace CPU 將從一開始就利用 NVIDIA Arm 軟件堆棧。
Grace CPU 還符合 Arm 服務器基礎系統架構( SBSA ),以實現符合標準的硬件和軟件接口。此外,為了在基于 Grace CPU 的系統上啟用標準引導流, Grace CPU 被設計為支持 Arm 服務器基本引導要求( SBBR )。
對于緩存和帶寬分區以及帶寬監控, Grace CPU 還支持 Arm 內存分區和監控( MPAM )。
Grace CPU 還包括 Arm 性能監控單元,允許對 GPU 內核以及片上系統( SoC )架構中的其他子系統進行性能監控。這使得標準工具(如 Linux perf )可以用于性能調查。
帶 Grace Hopper 超級芯片的統一內存
NVIDIA Grace Hopper 超級芯片將 Grace CPU 與 Hopper GPU 相結合,擴展了 CUDA 在 CUDA 8.0 中首次引入的統一內存編程模型。
NVIDIA Grace Hopper 超級芯片引入了具有共享頁表的統一內存,允許 Grace CPU 和 Hopper GPU 與 CUDA 應用程序共享地址空間甚至頁表。
Grace Hopper GPU 還可以訪問可分頁內存分配。 Grace Hopper 超級芯片允許程序員使用系統分配器分配 GPU 內存,包括與 GPU 交換指向malloc內存的指針。
NVLink-C2C 支持 Grace CPU 和 Hopper GPU 之間的本機原子支持,釋放了 CUDA 10.2 中首次引入的 C ++原子的全部潛力。
NVIDIA 可伸縮一致性結構
Grace CPU 介紹了 NVIDIA 可伸縮一致性結構( SCF )。由 NVIDIA 設計的 SCF 是一種網格結構和分布式緩存,旨在根據數據中心的需要進行擴展。 SCF 提供 3.2 TB / s 的二等分帶寬,以確保 NVLink-C2C 、 CPU 核心、內存和系統 IO 之間的數據流量。
圖 1.隨 Grace CPU 引入的 NVIDIA 可伸縮一致性結構圖
單個 Grace CPU 包含 72 個 GPU 內核和 117MB 緩存,但 SCF 的設計可擴展性超出此配置。當兩個 Grace CPU 組合形成一個 Grace 超級芯片時,這些數字分別增加到 144 個 CPU 核和 234MB 的 L3 緩存。
CPU 核心和 SCF 緩存分區( SCC )分布在整個網格中。緩存交換節點( CSN )通過結構路由數據,并充當 CPU 核心、緩存內存和系統其余部分之間的接口,從而實現整個系統的高帶寬。
內存分區和監視
Grace CPU 集成了對內存系統資源分區和監控( MPAM )功能的支持,這是 Arm 對系統緩存和內存資源進行分區的標準。
MPAM 通過向系統內的請求者分配分區 ID ( PartID )來工作。這種設計允許基于其各自的分區對資源(如緩存容量和內存帶寬)進行分區或監控。
Grace CPU 中的 SCF 緩存支持使用 MPAM 對緩存容量和內存帶寬進行分區。此外,性能監視組( PMG )可用于監視資源使用情況。
利用內存子系統提高帶寬和能效
為了提供卓越的帶寬和能效, Grace CPU 實現了 32 通道 LPDDR5X 內存接口。這提供了高達 512GB 的內存容量和高達 546GB / s 的內存帶寬。
擴展 GPU 存儲器
Grace Hopper 超級芯片的一個關鍵特征是引入了擴展 GPU 內存( EGM )。通過允許從更大的 NVLink 網絡連接的任何漏斗 GPU 訪問連接到 Grace Hopper 超級芯片中 Grace CPU 的 LPDDR5X 內存,大大擴展了 GPU 可用的內存池。
圖 2.漏斗 GPU 可以使用 NVLink-C2C 訪問遠程 Grace CPU 的存儲器
GPU 到 – GPU NVLink 和 NVLink-C2C 雙向帶寬在超級芯片中匹配,這使得料斗 GPU 能夠以 NVLink 本地速度訪問 Grace CPU 存儲器。
使用 LPDDR5X 平衡帶寬和能效
為 Grace CPU 選擇 LPDDR5X 是因為需要在大規模 AI 和 HPC 工作負載的帶寬、能效、容量和成本之間取得最佳平衡。
雖然四站點 HBM2e 內存子系統將提供大量內存帶寬和良好的能效,但其成本將是 DDR5 或 LPDDR5X 每 GB 成本的 3 倍以上。
此外,這種配置將僅限于 64GB 的容量,這是具有 LPDDR5X 的 Grace CPU 可用的最大容量的八分之一。
與更傳統的八通道 DDR5 設計相比, Grace CPU LPDDR5X 內存子系統提供了高達 53% 的帶寬,并大大提高了功率效率,每千兆字節只需要八分之一的功率。
圖 3.HBM2e ( 4 個站點)、 DDR5 ( 8 通道)和 LPDDR5x ( 32 通道)內存選項的容量、帶寬、功率和成本比較
LPDDR5X 卓越的功率效率使得能夠將更多的總功率預算分配給計算資源,例如 CPU 核或 GPU 流式多處理器( SMs )。
NVIDIA Grace CPU 輸入/輸出
Grace CPU 整合了一系列高速 I / O ,以滿足現代數據中心的需求。 Grace CPU SoC 提供多達 68 條 PCIe 連接通道和多達 4 條 PCIe Gen 5 x16 鏈路。每個 PCIe Gen 5 x16 鏈路提供高達 128GB / s 的雙向帶寬,并可進一步分叉為兩個 PCIe Gen 5×8 鏈路,以實現額外的連接。
圖 4.Grace I / O 功能多達 68 條 PCIe 通道、 12 條相干 NVLINK 通道和 NVLINK-C2C
這種連接是對片上 NVLink-C2C 鏈路的補充,該鏈路可用于將 Grace CPU 連接到另一個 Grace CPU ,或連接到 NVIDIA Hopper GPU 。
NVLink 、 NVLink-C2C 和 PCIe Gen 5 的組合為 Grace CPU 提供了豐富的連接選項套件和擴展現代數據中心性能所需的充足帶寬。
NVIDIA Grace CPU 性能
NVIDIA Grace CPU 設計用于在單芯片和 Grace 超級芯片配置中提供卓越的計算性能,估計SPECrate2017_int_base得分分別為 370 和 740 。這些預硅估計基于 GNU 編譯器集合( GCC )的使用。
圖 5.單個 Grace CPU (左)和 Grace 超級芯片(右)的規格速率估計。 來源:預硅估計性能(可能會更改)。
內存帶寬對于設計 Grace CPU 的工作負載至關重要,在流基準測試中,單個 Grace CPU ,預計可提供高達 536GB / s 的實際帶寬,占芯片峰值理論帶寬的 98% 以上。
圖 6.MemRead 、 MemSet 、 MemCopy 和 MemTriad 的 Grace CPU 內存基準測試結果(從左到右)
最后,料斗 GPU 和 Grace CPU 之間的帶寬對于最大化 Grace 料斗超級芯片的性能至關重要。 GPU 對 – CPU 內存的讀和寫預計分別為 429GB / s 和 407GB / s ,分別代表 NVLink-C2C 峰值理論單向傳輸速率的 95% 和 90% 以上。
綜合讀寫性能預計為 506GB / s ,占單個 NVIDIA Grace CPU SoC 可用峰值理論內存帶寬的 92% 以上。
圖 7.Hopper GPU 到 Grace memory 基準測試結果
NVIDIA Grace CPU 超級芯片的優勢
NVIDIA Grace CPU 超級芯片擁有 144 個核心和 1TB / s 的內存帶寬,將為基于 CPU 的高性能計算應用提供前所未有的性能。 HPC 應用程序是計算密集型應用程序,需要性能最高的核心、最高的內存帶寬和每個核心的正確內存容量,以加快結果。
NVIDIA 正在與領先的 HPC 、超級計算、超尺度和云客戶合作,開發 Grace CPU 超級芯片。 Grace CPU 超級芯片和 Grace Hopper 超級芯片預計將于 2023 年上半年上市。
關于作者
Jonathon Evans 是 NVIDIA 杰出工程師,也是 NVIDIA Grace CPU 的架構主管。 Jonathon 于 2007 年加入 NVIDIA ,成為 GPU 架構團隊的成員。他之前在 GPU 方面的工作包括領導 GPU 的上下文管理和調度硬件團隊,以及對異步計算、統一內存、多實例 GPU 和 WDDM 硬件調度的貢獻。
Ashraf Eassa 是NVIDIA 加速計算集團內部的高級產品營銷經理。
審核編輯:郭婷
-
控制器
+關注
關注
112文章
16448瀏覽量
179465 -
cpu
+關注
關注
68文章
10905瀏覽量
213030 -
NVIDIA
+關注
關注
14文章
5076瀏覽量
103728
發布評論請先 登錄
相關推薦
評論