電子發燒友網報道(文/周凱揚)當下服務器市場在內存上面臨的一大挑戰就是成本,截至今日,我們在選擇云服務容器時,內存依然占了很大一部分,往往內存用量擴大一倍后,價格也隨之上漲了一倍。這其實與內存本身的擴展性有關,目前服務器上更大的存儲已經成為常態,但要想實現更大的內存始終存在瓶頸。因此,從2013年開始,每bit內存的價格基本趨于平緩了。
但服務器CPU的核心數增加的速度可沒有因此減緩下來,加上AI等新型工作負載的引入,更大的內存容量、更大的內存帶寬,都成了當下服務器內存面臨的痛點。為此,業界開始考慮從系統層級上來解決這些問題,比如為CPU增加DDR通道,好讓其支持更大的帶寬和容量。
但這就又引入了一系列新問題,為了滿足新增的DDR通道,需要更多的引腳,也提高了成本降低了可靠性,PCB的層數也開始增加。這也造就了整個服務器主板的尺寸變得異常大,甚至難以放進1U標準尺寸的機柜里。
CXL的靈活性和延遲
這時對于內存媒介無限制的CXL,就提供了一個靈活的內存接口,讓設計者可以從持久性、延遲、帶寬等各個參數特性上靈活選擇,讓服務器CPU不止可以使用常用的DDR內存,也能支持LPDDR5和持久內存等等。我們此前已經多次介紹過CXL了,這次就來講下作為內存擴展,CXL有哪些優勢。
比如一個80核的CPU,應用要求每個核心配置2GB的DDR5內存,也就是需要160GB的DDR5內存。如果采用16GB DIMM x8的配置明顯滿足不了,32GB x 8多出了96GB內存,徒增了近乎500美元的成本,使用32GB x 5這樣不跑滿通道的配置雖然容量對了,但是會降低帶寬和性能。
而這時我們反觀CXL,CXL可以在配置了原生DDR通道配置了8個16GB DIMM的情況下,再加入32GB的CXL內存,如此一來不僅滿足了內存容量的需求,還增加了額外的帶寬,況且我們已經提到了CXL并沒有內存媒介的限制,所以可以用上LPDDR5之類的CXL擴展內存進一步降低成本。
![pYYBAGMEpKCAfyAMAALWhOBgIJg398.png](https://file.elecfans.com/web2/M00/64/7B/pYYBAGMEpKCAfyAMAALWhOBgIJg398.png)
各種緩存、內存和存儲的延遲對比 / CXL聯盟
作為一個分布式內存,盡管CXL主打的是低延遲,但要說與CPU的內存、緩存和寄存器比起來,延遲還是有一定差距的。今年的Hot Chips上,CXL聯盟就給出了CXL在延遲上的具體數字。獨立于CPU外的CXL內存延遲在170-250ns左右,高過獨立于CPU的NVM、網絡連接的解構內存、SSD和HDD等。
雖然在我們看來這個數字已經很小了,但相較原生的主要內存,還是把延遲擴大了兩倍。來自Meta和AMD的兩位專家提出了一個概念,也就是對內存進行分層,分為用于實時分析等關鍵任務的“熱”內存、訪問不那么頻繁的“暖”內存和用于龐大數據的“冷”內存。“熱”內存頁面放在原生DDR內存里,而“冷”內存頁面則交給CXL內存。
然而在當前的軟件眼里,它們才分不清楚什么是“熱”內存和“冷”內存,原生內存用完后,就開始去占用CXL內存,如此一來原本作為“冷”內存的CXL,也開始變成“熱”內存。所以目前最大的挑戰就是在操作系統和軟件層面,如何檢測到“冷”內存頁面,將其主動轉入CXL內存里,為原生內存留出空間。Meta和AMD的兩位專家表示,他們已經在開發相應的軟硬件技術。
CXL或許不會成為HPC和AI應用的寵兒
固然CXL對于云服務廠商和諸多數據中心擁有不錯的吸引力,然而這種形式的內存可能并不適用于HPC與超算應用。“富岳之父”松岡聰教授表示CXL這種內存解構方案還存在不少技術問題,使其不能在主流的HPC甚至是AI負載中物盡其用。松岡聰教授并沒有給出具體的細節,但他給出了一個例子,那就是多年前SGI的NUMALINK系統也是采用了分布式內存解構的方式,但我們也都知道如今市面上的NUMALINK產品基本已經銷聲匿跡了。
但他并沒有徹底否認內存解構這種思路,就連富岳超算本身也用這一技術,從而將MPI進行put/get運算時的遠程內存訪問延遲降低至亞微秒級。但加入一個單獨的UMA內存池,已經在歷史中證明了這對HPC來說收效甚微。
首先,這需要更高硬件交換機成本,再者,在超算這種大型配置規模的系統上,缺乏對應的編程標準。因此,對于目前的HPC大型系統來說,CXL內存或許會先出現在一小部分節點上,比如一些需要近存或存內計算AI負載,而不會普及到整個系統。
寫在最后
其實對于CXL的擔心也沒必要那么多,對于服務器市場來說,低核心數的CPU依然會繼續使用原生DDR通道來配置DIMM內存。到了高核心數CPU上,再根據系統成本、容量、功耗和帶寬等參數來靈活應用CXL內存,而這才是CXL帶來的最大優勢,靈活性。況且目前CXL內存還沒有大規模量產出來,自然也沒有普及開來,大家對其實際性能表現還沒有個大致了解,也許引入CXL的延遲后,對性能的損失不會那么糟糕。
但服務器CPU的核心數增加的速度可沒有因此減緩下來,加上AI等新型工作負載的引入,更大的內存容量、更大的內存帶寬,都成了當下服務器內存面臨的痛點。為此,業界開始考慮從系統層級上來解決這些問題,比如為CPU增加DDR通道,好讓其支持更大的帶寬和容量。
但這就又引入了一系列新問題,為了滿足新增的DDR通道,需要更多的引腳,也提高了成本降低了可靠性,PCB的層數也開始增加。這也造就了整個服務器主板的尺寸變得異常大,甚至難以放進1U標準尺寸的機柜里。
CXL的靈活性和延遲
這時對于內存媒介無限制的CXL,就提供了一個靈活的內存接口,讓設計者可以從持久性、延遲、帶寬等各個參數特性上靈活選擇,讓服務器CPU不止可以使用常用的DDR內存,也能支持LPDDR5和持久內存等等。我們此前已經多次介紹過CXL了,這次就來講下作為內存擴展,CXL有哪些優勢。
比如一個80核的CPU,應用要求每個核心配置2GB的DDR5內存,也就是需要160GB的DDR5內存。如果采用16GB DIMM x8的配置明顯滿足不了,32GB x 8多出了96GB內存,徒增了近乎500美元的成本,使用32GB x 5這樣不跑滿通道的配置雖然容量對了,但是會降低帶寬和性能。
而這時我們反觀CXL,CXL可以在配置了原生DDR通道配置了8個16GB DIMM的情況下,再加入32GB的CXL內存,如此一來不僅滿足了內存容量的需求,還增加了額外的帶寬,況且我們已經提到了CXL并沒有內存媒介的限制,所以可以用上LPDDR5之類的CXL擴展內存進一步降低成本。
![pYYBAGMEpKCAfyAMAALWhOBgIJg398.png](https://file.elecfans.com/web2/M00/64/7B/pYYBAGMEpKCAfyAMAALWhOBgIJg398.png)
各種緩存、內存和存儲的延遲對比 / CXL聯盟
作為一個分布式內存,盡管CXL主打的是低延遲,但要說與CPU的內存、緩存和寄存器比起來,延遲還是有一定差距的。今年的Hot Chips上,CXL聯盟就給出了CXL在延遲上的具體數字。獨立于CPU外的CXL內存延遲在170-250ns左右,高過獨立于CPU的NVM、網絡連接的解構內存、SSD和HDD等。
雖然在我們看來這個數字已經很小了,但相較原生的主要內存,還是把延遲擴大了兩倍。來自Meta和AMD的兩位專家提出了一個概念,也就是對內存進行分層,分為用于實時分析等關鍵任務的“熱”內存、訪問不那么頻繁的“暖”內存和用于龐大數據的“冷”內存。“熱”內存頁面放在原生DDR內存里,而“冷”內存頁面則交給CXL內存。
然而在當前的軟件眼里,它們才分不清楚什么是“熱”內存和“冷”內存,原生內存用完后,就開始去占用CXL內存,如此一來原本作為“冷”內存的CXL,也開始變成“熱”內存。所以目前最大的挑戰就是在操作系統和軟件層面,如何檢測到“冷”內存頁面,將其主動轉入CXL內存里,為原生內存留出空間。Meta和AMD的兩位專家表示,他們已經在開發相應的軟硬件技術。
CXL或許不會成為HPC和AI應用的寵兒
固然CXL對于云服務廠商和諸多數據中心擁有不錯的吸引力,然而這種形式的內存可能并不適用于HPC與超算應用。“富岳之父”松岡聰教授表示CXL這種內存解構方案還存在不少技術問題,使其不能在主流的HPC甚至是AI負載中物盡其用。松岡聰教授并沒有給出具體的細節,但他給出了一個例子,那就是多年前SGI的NUMALINK系統也是采用了分布式內存解構的方式,但我們也都知道如今市面上的NUMALINK產品基本已經銷聲匿跡了。
但他并沒有徹底否認內存解構這種思路,就連富岳超算本身也用這一技術,從而將MPI進行put/get運算時的遠程內存訪問延遲降低至亞微秒級。但加入一個單獨的UMA內存池,已經在歷史中證明了這對HPC來說收效甚微。
首先,這需要更高硬件交換機成本,再者,在超算這種大型配置規模的系統上,缺乏對應的編程標準。因此,對于目前的HPC大型系統來說,CXL內存或許會先出現在一小部分節點上,比如一些需要近存或存內計算AI負載,而不會普及到整個系統。
寫在最后
其實對于CXL的擔心也沒必要那么多,對于服務器市場來說,低核心數的CPU依然會繼續使用原生DDR通道來配置DIMM內存。到了高核心數CPU上,再根據系統成本、容量、功耗和帶寬等參數來靈活應用CXL內存,而這才是CXL帶來的最大優勢,靈活性。況且目前CXL內存還沒有大規模量產出來,自然也沒有普及開來,大家對其實際性能表現還沒有個大致了解,也許引入CXL的延遲后,對性能的損失不會那么糟糕。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
服務器
+關注
關注
12文章
9334瀏覽量
86133 -
2cxl
+關注
關注
0文章
5瀏覽量
6416
發布評論請先 登錄
相關推薦
內存擴展CXL加速發展,繁榮AI存儲
電子發燒友網報道(文/黃晶晶)CXL即Compute Express Link,是一種全新的互連協議,為各種處理器包括CPU、GPU、FPGA、加速器和存儲設備提供統一接口標準,可以有效解決內
![<b class='flag-5'>內存</b>擴展<b class='flag-5'>CXL</b>加速發展,繁榮AI存儲](https://file1.elecfans.com/web2/M00/03/06/wKgZoma_IHiAaHO3AAS8xx3aMnM285.png)
SMART Modular世邁科技CXL內存擴充卡獲CXL聯盟認證
SMART Modular世邁科技近日宣布其4-DIMM和8-DIMM CXL?(Compute Express Link?)內存擴充卡已成功通過CXL 2.0認證測試,并正式被列入CXL
瀾起科技CXL?內存擴展控制器芯片通過CXL 2.0合規性測試
近日,瀾起科技在CXL(Compute Express Link)技術領域取得了又一重要里程碑。其自主研發的CXL?內存擴展控制器(MXC)芯片成功通過了
云服務器 Flexus X 實例,鏡像切換與服務器壓力測試
云服務器 Flexus X 壓力測試 1、購買華為云 Flexus X 實例 Flexus云服務器X實例-華為云 (huaweicloud.com) ? 2、xshell 遠程連接服務器 3、安裝
![云<b class='flag-5'>服務器</b> Flexus X 實例,鏡像切換與<b class='flag-5'>服務器</b>壓力測試](https://file1.elecfans.com//web3/M00/04/A1/wKgZPGd2mNaAFclpAAGrndbG1KI643.png)
Jtti:新加坡服務器的性能如何評估
支持高達16GB的DDR3內存配置,為運行多個應用程序和處理大量工作負載提供充足的內存。同時,服務器配備了500GB SSD,提供快速的讀寫速度,顯著提高了系統性能和應用程序響應速度。 網絡性能 :Jtti新加坡
拓展AI數據中心內存,第二代AMD Versal Premium系列自適應SoC,首發支持CXL 3.1、 PCIe Gen6
電子發燒友網報道(文/黃晶晶)在數據中心市場,DDR5和CXL內存正在成為廣泛采用的主流趨勢。預計2024年到2029年CXL內存的采用將達到212%的年復合增長率。如今,現有出貨的半
![拓展AI數據中心<b class='flag-5'>內存</b>,第二代AMD Versal Premium系列自適應SoC,首發支持<b class='flag-5'>CXL</b> 3.1、 PCIe Gen6](https://file1.elecfans.com/web2/M00/0B/A3/wKgZomc1t1qAJ7fAAAnXfN3i2s8611.png)
獨立服務器與云服務器的區別
隨著互聯網技術的飛速發展,企業對于服務器的需求日益增加,而服務器市場也隨之出現了多種類型的產品,其中最常見的是獨立服務器和云服務器。這兩種服務器
Marvell推出CXL內存擴展控制器Structera X 2404
在科技日新月異的今天,服務器技術的迭代升級正以前所未有的速度推進。然而,這一進程也伴隨著資源的巨大消耗與浪費。隨著新一代服務器的不斷涌現,大量基于DDR4內存的通用服務器即將面臨退役的
云服務器和虛擬服務器的區別是什么
云服務器和虛擬服務器是兩種常見的服務器類型,它們在很多方面有相似之處,但也有一些關鍵的區別。本文將詳細介紹云服務器和虛擬服務器的區別,包括它
SMART Modular 世邁科技推出高性能服務器專用全新CXL? 內存擴充卡系列
(CXL?)內存擴充卡(AIC)系列,可支持業界標準 DDR5 內存模塊。這也是同類產品中第一款采用CXL?協議的高密度內存模塊擴充卡。
揭秘服務器CPU、內存與硬盤的作用
一般服務器后面插的硬盤我們稱為本地盤(安裝服務器的操作系統、應用軟件等)。
前面的硬盤可以用作配超融合的虛擬存儲(即:在服務器上配置虛擬機的時候,一般分配前置硬盤的資源)。
![揭秘<b class='flag-5'>服務器</b>CPU、<b class='flag-5'>內存</b>與硬盤的作用](https://file1.elecfans.com/web2/M00/C6/88/wKgaomYA5umAd6veAAAuaWYhD2U437.png)
利用CXL技術重構基于RDMA的內存解耦合
本文提出了一種基于RDMA和CXL的新型低延遲、高可擴展性的內存解耦合系統Rcmp。其顯著特點是通過CXL提高了基于RDMA系統的性能,并利用RDMA克服了CXL的距離限制。
發表于 02-29 10:05
?3632次閱讀
![利用<b class='flag-5'>CXL</b>技術重構基于RDMA的<b class='flag-5'>內存</b>解耦合](https://file1.elecfans.com/web2/M00/C2/06/wKgZomXf5-2AToOKAAAlpP6w5oc356.png)
linux服務器和windows服務器
Linux服務器和Windows服務器是目前應用最廣泛的兩種服務器操作系統。兩者各有優劣,也適用于不同的應用場景。本文將
對Linux服務器和Windows
發表于 02-22 15:46
評論