電子發燒友網報道(文/梁浩斌)近日有消息稱,英偉達正在與三星、SK海力士等存儲巨頭合作,推動自家SOCAMM內存標準的商業化落地。SOCAMM即Space-Optimized CAMM空間優化內存模組技術,是由英偉達主導研發的面向AI計算、HPC、數據中心等領域的高密度內存解決方案,旨在通過緊湊的設計實現最大化存儲容量,保持極佳的性能,并使用可拆卸的設計,便于用戶可以對內存模塊靈活進行升級和更換。
在CES2025上,英偉達推出的緊湊型超算Project DIGITS,就有望將使用SOCAMM內存實現小體積。
高密度內存是AI算力的關鍵
在AI大模型的訓練和推理中,內存都起到十分關鍵的作用,在訓練過程中,輸入的數據需要在計算芯片與內存之間頻繁傳輸;同時今天的AI大模型參數規模已經達到數百億甚至萬億級別,大量的參數帶來的是巨大的內存需求,比如DeepSeek R1(671B版本)的全量模型文件大小達到720GB,需要512GB以上的DDR4內存。
而在內存需求不斷增加的當下,在設備有限的體積以及有限的成本內,如何容納更高容量的內存也成為一個難題。
另外根據一些測試,影響大模型本地部署處理速度的主要是內存總帶寬,高帶寬內存可以減少數據搬運時間,加快處理速度。帶寬決定了單位時間內內存與處理器之間的最大數據交換量。例如,訓練千億參數模型時,帶寬不足會導致GPU利用率低于50%。
在AI場景中,通常需要 >1 TB/s的帶寬,所以近幾年HBM內存隨著AI計算的需求而得到業界廣泛關注,但HBM高昂的價格,也讓其只應用在一些價格昂貴的高端算力卡上。
內存延遲過高也會導致處理器閑置,降低計算效率。例如,10ns的延遲差異可使推理吞吐量下降15%。一般來說,AI內存的隨機訪問延遲需控制在 50ns以內,而性能較強的HBM3可以實現30ns的延遲。
在能效方面,AI服務器系統中,內存的功耗往往占到整個系統總功耗的20%-40%,尤其是在GPU服務器中HBM的功耗可以高達300W。
前面也提到內存的需求不斷增加,所以對于AI數據中心等應用來說,能夠支持靈活的內存擴展也是一個重要的考量。于是面向未來的AI應用,新的內存需要支持可拆卸的設計,方便用戶更換。英偉達在SOCAMM上自然也采用了可拆卸的設計。
SOCAMM:更低成本實現HBM性能
具體來說,SOCAMM首先是利用高I/O密度和先進封裝來實現極高的帶寬。根據現有信息,SOCAMM的 694個I/O端口,遠超傳統內存模塊(如DDR5的64-128個),同時采用了3D封裝技術實現高密度互連,提供接近于HBM3的帶寬。SOCAMM顯著緩解處理器與內存間的數據瓶頸問題,尤其適用于需要高吞吐量的AI計算場景。
SOCAMM接口目前基于LPDDR5X,理論帶寬可以達到6TB/s,已經接近于HBM3的水平,但成本上要大大低于HBM3。同時基于LPDDR5本身具備的低功耗特性,集成高效的電壓調節單元,可以根據工作負載實時調整供電策略,盡可能降低能耗,因此SOCAMM的能效水平相比HBM3甚至是GDDR6X更高。
高速信號傳輸方面,SOCAMM據稱采用了高速差分對和優化的布線布局,能夠在高密度環境下保持穩定的信號。
在英偉達的設計中,SOCAMM的重要特性就是緊湊體積,模塊體積接近成人中指大小,可以推測其采用了chiplet設計和混合鍵合技術,將DRAM裸片與邏輯控制器集成在單一封裝內。
如果能夠將SOCAMM成功推廣,那么除了AI服務器等應用外,SOCAMM小體積的特性,還將使其適用于AI PC、自動駕駛等場景上,未來應用的前景將非常廣泛。
寫在最后
AI計算對內存的要求可歸納為:高帶寬、大容量、低延遲、高能效。傳統DRAM技術已接近物理極限,而HBM、SOCAMM等新型內存通過3D集成和接口優化逐步成為AI硬件的核心。英偉達主導的SOCAMM脫離了當前內存接口主流的JEDEC規范,并希望借助AI的趨勢以及英偉達GPU的強勢地位,來推動自有內存接口協議的應用,打造獨立的接口生態,未來SOCAMM的發展值得持續關注。
-
英偉達
+關注
關注
22文章
3862瀏覽量
92222
發布評論請先 登錄
相關推薦
評論