?
??CXL在大型數(shù)據(jù)中心內(nèi)越來越受歡迎,作為提高不同計(jì)算元素(如內(nèi)存和加速器)利用率的一種方式,同時(shí)最大限度地減少對額外服務(wù)器機(jī)架的需求。但該標(biāo)準(zhǔn)的擴(kuò)展和修改速度如此之快,以至于很難跟上所有的變化,每一個變化都需要在越來越多的異構(gòu)且通常是定制的設(shè)計(jì)中進(jìn)行驗(yàn)證和確認(rèn)。
Compute Express Link?(CXL)的核心是一種用于內(nèi)存、處理器和加速器的高速緩存一致性互連協(xié)議,它可以使靈活的架構(gòu)更有效地處理不同的工作負(fù)載類型和大小。反過來,這將有助于減輕數(shù)據(jù)中心的壓力,以更少的資源做更多的事情,考慮到需要處理的數(shù)據(jù)量激增,這似乎是一個巨大的挑戰(zhàn)。
過去,典型的解決方案是針對任何容量問題投入更多的計(jì)算資源。但隨著摩爾定律的放緩,以及為服務(wù)器機(jī)架供電和冷卻所需的功率持續(xù)增加,系統(tǒng)公司一直在尋找替代方法。隨著電網(wǎng)達(dá)到極限和社會對可持續(xù)性的需求增加,這一點(diǎn)變得更加重要。
CXL 主要由 Intel 開發(fā),基于 PCIe 標(biāo)準(zhǔn),在這些相互沖突的動態(tài)中提供了一個有吸引力的提議。優(yōu)化數(shù)據(jù)中心使用內(nèi)存的方式可以提高性能,同時(shí)還可以降低堆棧復(fù)雜性和系統(tǒng)成本。具體來說,CXL 允許 CPU 和連接設(shè)備上的內(nèi)存之間的低延遲連接和內(nèi)存一致性,從而使這些區(qū)域中的數(shù)據(jù)保持一致。
這對于大容量工作負(fù)載尤其重要,例如 AI 訓(xùn)練,其中更多的數(shù)據(jù)通常等同于更高的準(zhǔn)確性,以及日益電動化的車輛、智能工廠、藥物發(fā)現(xiàn)和氣象圖等所需的大規(guī)模模擬,僅舉幾例一些。
CXL 聯(lián)盟由創(chuàng)始成員谷歌、微軟、HPE、戴爾易安信、思科、Meta 和華為于 2019 年成立,當(dāng)年推出了基于 PCIe 5.0 的第一版規(guī)范。此后,AMD、NVIDIA、三星、Arm、瑞薩、IBM、Keysight、Synopsys、Marvell等以各種身份加入,Gen-Z技術(shù)和OpenCAPI技術(shù)相繼加入。8月,Specification 3.0被引入,具有兩倍的帶寬,支持多級切換,以及內(nèi)存共享的一致性改進(jìn)。
就標(biāo)準(zhǔn)而言,這個標(biāo)準(zhǔn)進(jìn)展得非???。鑒于財(cái)力雄厚的公司對 CXL 的支持日益高漲,這一標(biāo)準(zhǔn)似乎很可能會普及。但其快速發(fā)展也讓 IP 開發(fā)人員難以快速從一個版本的標(biāo)準(zhǔn)轉(zhuǎn)向下一個版本。
前景被看好
“我們應(yīng)該在未來幾年真正看到它的起飛,”?Cadence?的 PCIe、CXL 和接口 IP 產(chǎn)品營銷組總監(jiān)Arif Khan 說。他指出,根據(jù)一些內(nèi)存制造商的預(yù)測,到 2030 年,基于 CXL 的應(yīng)用程序的潛在市場總額預(yù)計(jì)將達(dá)到 200 億美元。
其他人也同樣樂觀。“有大量客戶在他們的下一代 SoC、加速器、SmartNIC 和GPU 以及內(nèi)存擴(kuò)展設(shè)備中采用 CXL,” Synopsys PCI Express 控制器 IP 技術(shù)營銷經(jīng)理 Richard Solomon 說。
“幾乎每個人都在構(gòu)建具有 CXL 功能的服務(wù)器,” Keysight Technologies高級規(guī)劃和營銷經(jīng)理 Brig Asay 說。“JEDEC 等標(biāo)準(zhǔn)已與 CXL 達(dá)成協(xié)議,在標(biāo)準(zhǔn)之間開展工作并確??刹僮餍?。CXL 還獲得了來自 Gen-Z 和Open CAPI 的資產(chǎn),它們提供與 CXL 類似的功能,但CXL 具有強(qiáng)大的后勁?!?/p>
盡管如此,無論標(biāo)準(zhǔn)進(jìn)展得有多快,廣泛采用都需要時(shí)間。盡管共享資源具有吸引力,但數(shù)據(jù)中心在采用任何新技術(shù)時(shí)都比較保守。任何故障都可能導(dǎo)致數(shù)百萬美元的停機(jī)時(shí)間。
“雖然 CXL 令人興奮,但該技術(shù)仍處于早期階段,”?Arm基礎(chǔ)設(shè)施業(yè)務(wù)線產(chǎn)品管理高級總監(jiān) Jeff Defilippi 說?!耙獙?shí)現(xiàn)擴(kuò)散,這些解決方案在進(jìn)行生產(chǎn)部署之前需要與 OEM 和云服務(wù)提供商一起進(jìn)行嚴(yán)格的功能和性能驗(yàn)證過程。”
Synopsys 高級產(chǎn)品營銷經(jīng)理 Varun Agrawal 觀察到,在過去三年中,無數(shù)內(nèi)存和服務(wù)器 SoC 公司都表示支持 CXL。但將完全支持 CXL 拓?fù)浜蛶挼漠a(chǎn)品推向市場是一個較慢的過程。“越來越多的設(shè)計(jì)現(xiàn)在選擇通過 cxl.io 為其 PCIe 數(shù)據(jù)路徑采用 CXL,以期擴(kuò)展到其他類型的設(shè)備。就產(chǎn)品推出而言,CXL 在數(shù)據(jù)中心的擴(kuò)散一直很緩慢,原因之一是缺乏驗(yàn)證和驗(yàn)證基礎(chǔ)設(shè)施?!?/p>
Agrawal 指出,用戶社區(qū)越來越多地將 CXL 交易處理器、虛擬模型和主機(jī)解決方案、在線速度適配器和接口卡硬件解決方案作為他們的首要要求,同時(shí)計(jì)劃他們的驗(yàn)證/驗(yàn)證。“CXL 為希望同時(shí)啟動硬件-軟件驗(yàn)證、軟件啟動和合規(guī)性以實(shí)現(xiàn)其上市時(shí)間目標(biāo)的公司提供了軟件優(yōu)先方法的范例?!?/p>
系統(tǒng)級驗(yàn)證也是一項(xiàng)要求?!案鶕?jù)支持的特性,驗(yàn)證可以跨越資源共享、池化和擴(kuò)展等內(nèi)存特性;主機(jī)和設(shè)備之間的一致性;安全和路由;熱移除和添加;具有不同虛擬層次結(jié)構(gòu)的多個域;和互連性能——尤其是 .cache 和 .mem 的延遲,”Agrawal 解釋道。
流行屬性
那么,盡管存在這些差距,為什么仍采用 CXL?Synopsys 的 Solomon 表示,CXL 最初的重點(diǎn)是緩存一致性,業(yè)界對其非對稱一致性協(xié)議很感興趣。直到后來,重點(diǎn)才轉(zhuǎn)移到解決傳統(tǒng)內(nèi)存附件和 DRAM 接口的局限性上。
“現(xiàn)在你有了這種緩存方法和這種內(nèi)存連接,它們中的每一種都以不同的方式將 CXL 推向數(shù)據(jù)中心,”他解釋道?!皩τ?a target="_blank">人工智能和機(jī)器學(xué)習(xí),SmartNIC、數(shù)據(jù)處理單元、服務(wù)器附加設(shè)備專注于智能處理服務(wù)器中的數(shù)據(jù),而不是主機(jī) CPU。這些人真的對高速緩存一致性互連很感興趣。對于超大規(guī)模器,CXL 在處理器和內(nèi)存之間創(chuàng)建了一個分離,允許在需要不同數(shù)量的易失性和非易失性內(nèi)存的作業(yè)之間更有效地分配資源。”
此外,低延遲、跨互連的一致性以及能夠支持?jǐn)?shù)據(jù)中心應(yīng)用程序的內(nèi)存分層需求使 CXL 具有吸引力,”Agrawal 說。“由于它使用現(xiàn)有的 PCIe PHY 層,互操作性有助于推動早期采用并延長產(chǎn)品生命周期?!?/p>
這使得 CXL 成為數(shù)據(jù)中心應(yīng)用的理想選擇。“CXL 為內(nèi)存訪問 CPU 提供緩存一致性,”Keysight 的 Asay 說?!八€支持內(nèi)存資源池,這是理想的,因?yàn)樗岣吡藬?shù)據(jù)中心 DRAM 的整體利用率。”
雖然 CXL 有多個用例,但 Arm 的 Defilippi 表示,云提供商對跨一組節(jié)點(diǎn)共享內(nèi)存容量并增加關(guān)鍵應(yīng)用程序的 GB/vCPU 的能力非常樂觀。“對于云供應(yīng)商來說,在他們所有的系統(tǒng)中大量配置 DRAM 成本過高。但通過訪問 CXL 附加的 DRAM 池,他們現(xiàn)在可以采用僅具有 2GB/vCPU 的系統(tǒng)并分配額外的 DRAM 容量,使這些系統(tǒng)更適合廣泛的工作負(fù)載。對于已經(jīng)高度配置的系統(tǒng)(即8GB/vCPU),額外的 CXL 附加內(nèi)存現(xiàn)在可以使它們適合需要大量內(nèi)存占用的應(yīng)用程序,例如某些 ERP 系統(tǒng),這些系統(tǒng)目前可能無法在云中運(yùn)行。在此示例中,CXL 成為將額外工作負(fù)載遷移到云的網(wǎng)關(guān)?!?/p>
2020 年 11 月發(fā)布的CXL 2.0 引入了具有多個邏輯設(shè)備的內(nèi)存池,Cadence 的 Khan 表示這是對規(guī)范的關(guān)鍵改進(jìn)。“這種池功能允許跨多個系統(tǒng)共享資源,包括系統(tǒng)內(nèi)存。雖然 CXL 是為加速器設(shè)計(jì)的,但它也支持內(nèi)存接口。分層配置還可以支持異構(gòu)內(nèi)存——封裝上的高帶寬內(nèi)存、連接到處理器的快速 DDR5 以及 CXL 模塊上的較慢內(nèi)存。內(nèi)存是數(shù)據(jù)中心的一項(xiàng)重要成本項(xiàng)目,而池化是管理系統(tǒng)的有效方式。”
圖 1:CXL 2.0 引入了具有單個和多個邏輯設(shè)備的內(nèi)存池 ?
CXL 和定制
去年推出的 CXL 3.0 更進(jìn)了一步,通過多級交換實(shí)現(xiàn)類似結(jié)構(gòu)的實(shí)現(xiàn)?!斑@允許實(shí)施全局結(jié)構(gòu)連接內(nèi)存,將內(nèi)存池與處理單元分開,”Khan 說?!皟?nèi)存池也可以是異構(gòu)的,具有各種類型的內(nèi)存。在未來,我們可以設(shè)想一個葉/主干架構(gòu),其中包含用于 NIC、CPU、內(nèi)存和加速器的葉子,以及一個圍繞 CXL 3.0 構(gòu)建的互連主干交換機(jī)系統(tǒng)。”
?圖 2:CXL 3.0 提供類似結(jié)構(gòu)的多級交換實(shí)現(xiàn) ?
這與數(shù)據(jù)中心相關(guān),因?yàn)樵?AI/HPC 世界中沒有通用的系統(tǒng)架構(gòu)。
Khan 解釋說,今天的服務(wù)器提供了這些應(yīng)用程序可能需要的合理超集,經(jīng)常導(dǎo)致利用率不足和能源浪費(fèi)?!爱悩?gòu)應(yīng)用程序需要非常獨(dú)特的解決方案來優(yōu)化實(shí)施。HPC/AI/ML 的常見應(yīng)用程序工作負(fù)載各有不同的系統(tǒng)需求。分解系統(tǒng)的愿景是構(gòu)建大型資源庫:內(nèi)存、GPU、計(jì)算和存儲資源,以根據(jù)需要構(gòu)建靈活、可組合的架構(gòu)。換句話說,CXL 通過啟用這些功能為分解和可組合的系統(tǒng)鋪平了道路?!?/p>
CXL 的內(nèi)存范例還為新的自定義 CXL 設(shè)備打開了大門,例如池內(nèi)存控制器。
“另一個新興用例是異構(gòu)計(jì)算,利用 CXL 設(shè)備內(nèi)的緩存一致性在主機(jī) CPU 和 CXL 連接設(shè)備之間共享內(nèi)存。這里的編程模型仍在制定中,但目標(biāo)是能夠在主機(jī)和加速器之間共享更大的數(shù)據(jù)集,這對于 ML 訓(xùn)練等事情非常有吸引力。對于開發(fā)中的大量定制 AI 芯片和 GPU/NPU,這可能是一個有吸引力的選擇,”Defilippi 說。
當(dāng)談到數(shù)據(jù)中心定制芯片設(shè)計(jì)中的 CXL 時(shí),Keysight 的 Asay 指出,如果這些設(shè)計(jì)需要緩存一致性或訪問某些共享內(nèi)存資源,則這些設(shè)計(jì)必須確保與 CXL 規(guī)范的互操作性?!耙环N常見的定制芯片設(shè)計(jì)是 SMART NIC,其中 CXL 作為一種傳輸數(shù)據(jù)的技術(shù)已經(jīng)變得非常普遍?!?/p>
安全性也很重要,Synopsys 的 Agrawal 認(rèn)為交易和系統(tǒng)級別的安全功能可能會推動數(shù)據(jù)敏感應(yīng)用程序的定制設(shè)計(jì),因?yàn)槎嗉夜径荚?CXL 上開發(fā)自己的應(yīng)用程序級接口以優(yōu)化其設(shè)計(jì)。
結(jié)論
在與數(shù)據(jù)中心和 HPC 相關(guān)的更廣泛的內(nèi)存生態(tài)系統(tǒng)中還有其他定制可能性,包括結(jié)合開源標(biāo)準(zhǔn)來創(chuàng)建新產(chǎn)品。
Blueshift Memory 是一家總部位于英國的芯片初創(chuàng)公司,其背后是一種名為 Cambridge Architecture 的替代內(nèi)存架構(gòu)。該公司正在使用 RISC-V 和 CXL 來部署 is 技術(shù)。該公司首席執(zhí)行官兼首席技術(shù)官 Peter Marosan 表示,使用這些開放標(biāo)準(zhǔn)使公司在制造商購買現(xiàn)成 CPU 方面節(jié)省了 1000 萬美元的潛在支出,并“為我們和我們的整個團(tuán)隊(duì)打開了市場大門?!?/p>
至于即將發(fā)生的事情,Synopsys 高級產(chǎn)品營銷經(jīng)理 Gary Ruggles 表示,他開始看到汽車行業(yè)對 CXL 2.0 和 CXL 3.0 的第一批詢價(jià)?!爱?dāng)你現(xiàn)在看汽車時(shí),它們就像漫游的超級計(jì)算機(jī)。這些人看到的與我們在數(shù)據(jù)中心看到的完全一樣,這不足為奇?!?/p>
編輯:黃飛
?
評論