處理器、內存發展速度不均衡,“存儲墻”如今成為數據計算一大障礙。隨著近幾年云計算和人工智能應用的發展,面對計算中心的數據洪流,數據搬運慢、搬運能耗大等問題成為了計算的關鍵瓶頸。在過去二十年,處理器性能速度提升遠超內存性能提升,長期下來,不均衡的發展速度造成了當前的存儲速度嚴重滯后于處理器的計算速度。
在傳統計算機的設定里,存儲模塊是為計算服務的,因此設計上會考慮存儲與計算的分離與優先級。從處理單元外的存儲器提取數據,搬運時間往往是運算時間的成百上千倍,整個過程的無用能耗大概在60%-90%之間,能效非常低,“存儲墻”成為了數據計算應用的一大障礙。
1、消除馮諾依曼計算架構瓶頸,存算一體應運而生
人工智能應用興起,“存儲墻”下存算一體技術應運而生。應用發展至今,人工智能的出現驅動了計算型存儲/存算一體/存內計算的發展。人工智能算法的訪存密集(大數據需求)和計算密集(低精度規整運算)的特征和為計算型存儲/存算一體/存內計算的實現提供了有力的條件。如今,存儲和計算不得不整體考慮,以最佳的配合方式為數據采集、傳輸和處理服務。
存算一體(Computing in Memory)是在存儲器中嵌入計算能力,以新的運算架構進行二維和三維矩陣乘法/加法運算。存算一體技術直接利用存儲器進行數據處理或計算,從而把數據存儲與計算融合在同一個芯片的同一片區之中,可以徹底消除馮諾依曼計算架構瓶頸。存算一體的優勢是打破存儲墻,消除不必要的數據搬移延遲和功耗,并使用存儲單元提升算力,成百上千倍的提高計算效率,降低成本。 存算一體有近內存計算(NMC)、存儲級內存(SCM)、近存儲計算(NSC)及存內計算(IMC)等技術方向。 近內存計算(NMC):“捆綁”緩存+內存,通常會選用3D封裝,利用TSV(硅通孔技術)實現垂直通信,但成本高,不同型號的芯片帶還要匹配大小,進行預設計和流片。在以上工作的基礎之上,還要考慮通用性問題,它適用于AI,機器學習和數據中心等規模型應用需求。另一種是2.5D封裝,主流技術是HBM(高帶寬內存),與平面板級連線不同,加入了interposer這種特殊有機材料(線寬,節點間距優于電路板)作為中間轉接層,它像一個有底座的硅芯片,CPU周邊增加很多“凹槽”,連接多個HBM(DRAM芯片)堆棧實現高密度和高帶寬。
存儲級內存(SCM):常見的是由英特爾和美光推出的3D Xpoint,基于相變存儲技術,速度介于SSD和內存之間,目前可以和DRAM配合使用,適用于規模型應用場景。 近存儲計算(NSC):將SSD控制器加上計算功能,或者讓擁有計算模塊的FPGA來處理數據并且充當閃存控制器,不通過CPU進行讀取計算,而是直連存儲器和計算,以此提升計算效率。
存內計算(IMC):利用存儲器的單元模擬特性做計算。CPU是二進制邏輯計算,而存內計算則是利用存儲器內電阻特性進行計算,不只是用來區分電阻高低,而是通過電阻值來區分多種狀態,僅僅用一個晶體管就可以完成一次乘法計算過程。
2、成熟存儲介質、新型存儲介質齊發展
存算一體有Flash、SRAM、DRAM等成熟存儲介質,同時ReRAM、MRAM等新型存儲介質也在快速發展。根據存儲介質的不同,存內計算芯片可分為基于傳統存儲器和基于新型非易失性存儲器兩種。
傳統存儲器包括SRAM,DRAM和Flash等;新型非易失性存儲器包括ReRAM,PCM,FeFET,MRAM等。其中,距離產業化較近的是基于NOR Flash和基于SRAM的存內計算芯片。
3、HBM:HBM技術下,DRAM由2D轉為3D
HBM(High Bandwidth Memory)即高帶寬存儲器,按照JEDEC的分類,HBM屬于GDDR內存的一種,其通過使用先進的封裝方法(如TSV硅通孔技術)垂直堆疊多個DRAM,并與GPU封裝在一起。業界希望通過增加存儲器帶寬解決大數據時代下的“內存墻”問題,HBM便應運而生。存儲器帶寬是指單位時間內可以傳輸的數據量,要想增加帶寬,最簡單的方法是增加數據傳輸線路的數量。
據悉,典型的DRAM芯片中,每個芯片有八個DQ數據輸入/輸出引腳,組成DIMM模組單元之后,共有64個DQ引腳。而HBM通過系統級封裝(SIP)和硅通孔(TSV)技術,擁有多達1024個數據引腳,可顯著提升數據傳輸速度。HBM技術之下,DRAM芯片從2D轉變為3D,可以在很小的物理空間里實現高容量、高帶寬、低延時與低功耗,因而HBM被業界視為新一代內存解決方案。
4、HBM:較傳統GDDR帶寬、功耗等性能優勢明顯
更高速、更高帶寬:最新的HBM3的帶寬最高可以達到819 GB/s,而最新的GDDR6的帶寬最高只有96GB/s,CPU和硬件處理單元的常用外掛存儲設備DDR4的帶寬更是只有HBM的1/10。 更高位寬:采用3D堆疊技術之后,其下方互聯的觸點數量遠遠多于DDR內存連接到CPU的線路數量。從傳輸位寬的角度來看,4層DRAM裸片高度的HBM內存總共就是1024 bit位寬。很多GPU、CPU周圍都有4片這樣的HBM內存,則總共位寬就是4096bit。
更低功耗:HBM 重新調整內存的功耗效率,使每瓦帶寬比GDDR5高出3倍多,即功耗降低3倍多。 更小外形:GDDR作為獨立封裝,在PCB上圍繞在處理器的周圍,而HBM則排布在硅中階層(Silicon Interposer)上并和GPU封裝在一起,面積一下子縮小了很多,比如HBM2比GDDR5節省了94%的表面積。 HBM發展至今第四代性能不斷突破。自2014年首款硅通孔HBM產品問世至今,HBM技術已經發展至第四代,分別是:HBM(第一代)、HBM2(第二代)、HBM2E(第三代)、HBM3(第四代),HBM芯片容量從1GB升級至24GB,帶寬從128GB/s提升至819GB/s,數據傳輸速率也從1Gbps提高至6.4Gbps
AIGC浪潮下AI服務器采購量增長,催生HBM需求量今年增近六成。2023年爆款AIGC應用帶動AI服務器成長熱潮,大型云端企業紛紛積極布局,包含Microsoft、Google、AWS、字節跳動、百度等企業陸續采購高端AI服務器,以持續訓練及優化其AI分析模型。TrendForce預估今年AI服務器出貨量年增率可望達15.4%,2023~2027年AI服務器出貨量年復合成長率約12.2%。 高端AI服務器需采用的高端AI芯片,相較于一般服務器而言,AI服務器多增加GPGPU的使用,以NVIDIA A100 80GB配置4或8張計算,HBM用量約為320~640GB。未來在AI模型逐漸復雜化的趨勢下,將推升2023-2024年高帶寬存儲器(HBM)的需求。 TrendForce預估2023年全球HBM需求量將年增近六成,來到2.9億GB,2024年將再成長三成。根據Mordor Intelligence,2020年高帶寬內存市場價值為 10.682 億美元,預計到2026年將達到40.885億美元,在2021-2026年預測期間的復合年增長率為25.4%。在近期的業績會上,SK海力士表示目前其HBM的銷量占比還不足營收1%,但今年銷售額占比有望成長到10%,同時預計在明年應用于AI服務器的HBM和DDR5的銷量將翻一番。 HBM價值量顯著敢于標準DRAM,成為新利潤增長點。芯片咨詢公司 SemiAnalysis 表示,HBM的價格大約是標準DRAM芯片的五倍,為制造商帶來了更大的總利潤。目前,HBM占全球內存收入的比例不到5%,但SemiAnalysis預計到2026年將占到總收入的20%以上。
SK海力士首席財務官Kim Woo-hyun 在4月份的財報電話會議上表示預計2023年HBM收入將同比增長50%以上。
5、CXL:PCIe應對海量數據面臨瓶頸
PCI-Express簡稱PCIE,是一種高速串行計算機擴展總線標準,主要用于擴充計算機系統總線數據吞吐量以及提高設備通信速度。PCIE本質上是一種全雙工的的連接總線,傳輸數據量的大小由通道數lane決定的。 一般,1個連接通道lane稱為X1,每個通道lane由兩對數據線組成,一對發送,一對接收,每對數據線包含兩根差分線。即X1只有1個lane,4根數據線,每個時鐘每個方向1bit數據傳輸,依次類推。CPU通過主板上的PCIe插槽及PCIe協議與加速器溝通,實現上下之間的接口以協調數據的傳送,并在高時鐘頻率下保持高性能。
即使每代PCIe性能升級,但面對海量數據仍有壓力。每一代PCIe的吞吐量都翻番,2019年5月底公布的PCIe 5.0,其以32Gb/s的單通道帶寬與32GT/s每通道數據傳輸速率,滿足了現今絕大多數的需求。但應對數據TB級增長、異構計算大行其道的當下,PCIe在內存使用效率、延遲和數據吞吐量等方面,已經面臨壓力。
6、CXL:PCIe技術乏力,CXL旨在解決內存墻和IO墻問題
PCIe技術逐漸乏力,CXL旨在解決存儲墻和IO墻問題。現代處理器性能的不斷提升,而內存與算力之間的技術發展差距卻不斷增大。在過去的20多年中,處理器的性能以每年大約55%速度快速提升,而內存性能的提升速度則只有每年10%左右。面臨摩爾定律的壓力,當代內存容量擴展速度逐年減緩,成本卻愈發高昂。隨著大數據AI、機器學習等應用爆發,英特爾二十年前開創的PCIe(PCI Express)技術逐漸乏力,內存墻和IO墻成為兩個不可逾越的瓶頸,基于PCI-e協議的CXL技術便在此環境下出現。 存儲墻:現代計算系統通常采取高速緩存(SRAM)、主存(DRAM)、外部存儲(NAND Flash)的三級存儲結構。每當應用開始工作時,就需要不斷地在內存中來回傳輸信息。SRAM響應時間通常在納秒級,DRAM則一般為100納秒量級,NAND Flash更是高達100微秒級,當數據在這三級存儲間傳輸時,后級的響應時間及傳輸帶寬都將拖累整體的性能,形成“存儲墻”。
IO墻:以AI為例,AI模型的大小基本上每兩年上升一個數量級,內存中的數據可以較快訪問,但超出內存后數據就需要放在外部存儲里,用網絡IO來訪問數據。IO方式的訪問會使得訪問速度嚴重下降,當數據量過于龐大內存容量不夠時,IO也不可避免地會成為應用的瓶頸。
7、CXL:具有極高兼容性和內存一致性的全新互聯技術標準
CXL作為一種全新的互聯技術標準,具有極高兼容性和內存一致性。CXL全稱為Compute Express Link,2019年英特爾推出了CXL技術,其能夠讓CPU與GPU、FPGA或其他加速器之間實現高速高效的互聯,從而滿足高性能異構計算的要求,并且其維護CPU內存空間和連接設備內存之間的一致性。
CXL硬件加軟件的生態環境里,已經涌現了一大批公司。CXL聯盟于2019年3月由創始成員阿里巴巴集團、思科系統、戴爾易安信、Meta、谷歌、惠普企業(HPE)、華為、英特爾公司和微軟組成。此后,AMD、NVIDIA、三星、Arm、瑞薩、IBM、Keysight、Synopsys、Marvell等以各種身份加入。2021、2022年Gen-Z技術和OpenCAPI技術相繼加入,CXL聯盟一統I/O互連標準。
8、CXL:1.1/2.0/3.0三代標準,從單機到多層交互
CXL是基于 PCIe 5.0發展而來,過去四年時間CXL已經發表了1.0/1.1、2.0、3.0三個不同的版本。 CXL 1.1:2019年,CXL的第一個版本CXL 1.1問世了。它主要定義的標準是如何直接連接一臺服務器里計算器件和內存器件,它主要的場景是對內存的容量和帶寬進行擴展,即Memory Expansion。 CXL 2.0:下圖中H1到H4到Hn指不同Host,它可以通過CXL Switch連接多個設備, D1到D4到Dn指的是不同的內存,也是通CXLSwitch連到上層的主機里。CXL 2.0不僅解決單機設備的問題,更是使Memory Pooling成為可能。這套框架下,可以跨系統設備實現共享內存池,大大提高內存的使用率,增加靈活性,同時降低內存的使用成本。
CXL 3.0:2022年8月份發布的新標準,在CXL 2.0基礎上增加了一些重要功能,它可以使得多個Switch互相連接,可以使得上百個服務器互聯并共享內存。除了多層交互以外,CXL 3.0還多Memory sharing的能力,突破了某一個物理內存只能屬于某一臺服務器的限制,在硬件上實現了多機共同訪問同樣內存地址的能力。 技術路線圖明確,至少2023年H2才有CXL 1.0/1.1的產品落地。已經有不少公司宣布將支持CXL,包括AMD、英特爾的下一代服務器芯片,內存廠商三星、海力士、美光均宣布了支持CXL的內存產品,但真正的產品仍需至少2023年H2才能推出。2024年上半年,CXL1.1和CXL 2.0的產品可能會有落地產品,CXL 3.0的落地還需要更長時間。
責任編輯:彭菁
-
模塊
+關注
關注
7文章
2735瀏覽量
47753 -
存儲
+關注
關注
13文章
4355瀏覽量
86181 -
計算
+關注
關注
2文章
451瀏覽量
38866 -
人工智能
+關注
關注
1796文章
47683瀏覽量
240307 -
存算一體
+關注
關注
0文章
104瀏覽量
4350
原文標題:計算架構升級,新興技術應用而生
文章出處:【微信號:架構師技術聯盟,微信公眾號:架構師技術聯盟】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論