Multi-Die設計正成為增強數據中心現代計算性能、可擴展性和靈活性的關鍵解決方案。通過將傳統的單片設計拆分為更小的異構或同構芯片(也稱小芯片),開發者可以針對特定任務優化每個組件,進而顯著提高效率和能力。這種模塊化策略對數據中心特別有利,因為數據中心需要高性能、可靠且可擴展的系統來處理大量數據和復雜的AI工作負載。
超大規模數據中心不斷發展的復雜架構可以使用各種類型的Multi-Die設計:
計算芯片負責核心處理任務,包括通用CPU、用于并行處理的GPU以及專用于人工智能(AI)和機器學習(ML)的加速器
內存芯片為數據密集型應用提供必要的存儲和帶寬,支持各種類型的內存,如DDR、HBM和新興的非易失性技術
IO芯片負責管理輸入和輸出操作,促進計算單元與內存、網絡和存儲等外部接口之間的數據傳輸,確保高數據帶寬和低延遲
此外,定制芯片可以滿足特定要求或優化特定功能,包括增強數據保護的安全設計、高效節能的電源管理設計以及具備高級通信功能的網絡設計。
本文深入探討了PCIe和以太網以及UCIe IP的多芯片設計如何最大限度地提高帶寬和性能,助力現代化AI數據中心基礎設施實現縱向和橫向擴展。
為何縱向和橫向擴展是數據中心連接性的關鍵
互連是構建AI基礎結構的一大挑戰,我們應如何將多個數據中心的數萬臺服務器連接在一起,形成能夠處理AI工作負載的龐大網絡?AI數據中心的復雜性不言而喻,涵蓋多個CPU和加速器、各種交換機、大量NIC以及其他設備。無縫連接這些組件離不開高效的網絡。因此,縱向和橫向擴展技術就顯得至為關鍵。IO分解為這兩種擴展策略提供了契機。在縱向擴展場景中,PCIe和UCIe利用UCIe IP實現Die-to-Die連接,構建內部網絡結構;同時,對于橫向擴展場景,以太網和UCIe IP則可以在服務器間建立高速、低延遲鏈路。
縱向擴展和橫向擴展概述
縱向擴展(或垂直擴展)指的是通過添加CPU數量、擴展內存或增強存儲容量增加單臺服務器的資源。這種方法將所有資源集中在一臺機器內,可以簡化架構、降低延遲。縱向擴展的核心在于用來構建內部網絡結構的PCIe技術。最新的PCIe 7.0標準可連接CPU、GPU、NIC、存儲驅動器等外設,提供低延遲和高帶寬接口,確保服務器內的高效通信。
橫向擴展(或水平擴展)是將工作負載分配到多臺服務器上,創建協同工作的機器網絡。這種方法經濟高效、具備冗余能力,并能靈活應對不斷增長的工作負載。然而,這也增加了網絡配置與管理的復雜性,因為多臺機器間的通信可能會增加延遲。因此,以太網技術和即將推出的超級以太網標準便顯得尤為重要,它們為數據中心內的服務器提供了高速、低延遲通信鏈路。目前,業界正在積極探討新標準,旨在實現AI加速器與交換機之間的高速鏈路,確保數據傳輸與協調工作更加高效。
▲圖1 數據中心架構擴展所需關鍵互連技術一覽
集成以太網和PCIe的Multi-Die設計
如圖1所示,Multi-Die設計為實現縱向與橫向擴展提供了諸多可能。Multi-Die設計采用了PCIe、以太網和UCIe IP,對縮短上市時間、降低成本和風險至關重要,同時提供了全面的架構靈活性。接下來,本文將詳細介紹Multi-Die設計的幾個主要IO小芯片類型,包括超大型AI訓練芯片、交換機SoC以及重定時器。
超大型AI訓練芯片
為了處理龐大的數據模型,AI芯片必須能高效執行計算和數據管理任務。AI訓練專用芯片旨在滿足這些巨大的計算和數據處理需求,在單個芯片上集成多個處理單元、內存和互連,以提供優越的性能和效率。因此,集成了40G UCIe和224G以太網的Multi-Die設計應運而生,為AI的高效訓練帶來了實現方案。數據中心不再需要依賴于數千個龐大的GPU,而是可以通過更加小巧的SoC來執行AI訓練,這大幅減小了延遲和功耗,進一步改善了帶寬和傳輸距離。
224G以太網PHY IP提供了強大且可定制的接口。CEI-224G還在不斷發展,對AI訓練操作來說,實現每通道224Gbps,同時保持生態系統互操作性并降低功耗至關重要。此外,UCIe IP可以在多個芯片上提供高速、低延遲、節能的數據傳輸,速度高達40Gbps,顯著增強這些芯片的可擴展性和模塊化。
▲圖2 適用于AI訓練芯片的224G/UCIe Multi-Die設計
具有電或光合封接口的100T交換機SoC
AI加速器當然非常重要,但怎么將它們連接到一起呢?這需要很多交換機。交換機SoC正成為橫向擴展AI和HPC數據中心并保持低功耗的另一種解決方案,電傳輸距離為3-4米,光傳輸距離為10-100米。這些SoC將電和光互連直接集成到CPU和GPU中,有助于增強網絡優化的可擴展性和效率,對緩解集群規模迅速擴張時的連接性瓶頸非常重要。電I/O雖支持高帶寬密度且功耗低,但傳輸距離有限;而光互連則能顯著延長數據傳輸范圍。可插拔光收發器模塊能增加傳輸距離,但大規模AI工作負載難以承受其高昂成本與整體能耗。相比之下,共封裝光I/O方案支持更高帶寬,其功耗更低、延遲更小且傳輸距離更遠,恰好能夠迎合AI/ML基礎結構的擴展需求。
光和電IO可支持以224Gbps運行的多條高速通道,且相比傳統可插拔QSFPDD或OSFP收發器模塊,其功耗顯著降低。此外,集成UCIe和高速以太網等先進標準,可促進與主芯片的高速、低延遲通信,突破傳統互連的局限性。
▲圖3 100T光/電交換機SoC
用于重定時器或擴展傳輸范圍的高帶寬IO
重定時器和擴展傳輸范圍解決方案也同樣不可或缺,可以維持信號完整性、減少長距離延遲。重定時器支持PCIe和CXL等高級協議,可無縫集成到現代數據中心架構中,并實現大量內存擴展,無需徹底改造現有系統。這種兼容性對于處理內存密集型AI推理操作以及克服PCIe 7.0等新標準帶來的信號完整性挑戰至關重要。
PCIe和CXL協議的融合正通過實現內存池和動態、經濟高效的內存分配重塑數據中心架構。為了使重定時器在新環境中發揮作用,它們必須具有協議感知能力,并能夠適應快速發展的CXL標準。片上診斷、安全啟動功能和低功耗等特性對于確保安全、易于調試和可持續性至關重要。業界向Multi-Die設計的轉變進一步強調了通用、高帶寬I/O解決方案的必要性,從而簡化了系統設計并加快了上市時間。這些技術進步不僅對于滿足當前AI與高性能計算的需求至關重要,也確保了數據中心能夠輕松應對未來不斷攀升的算力與帶寬需求。
▲圖4 重定時器或擴展傳輸范圍IO設計
采用以太網、PCIe和UCIe IP的Multi-Die實現示例
圖5為Multi-Die設計示例,其中包含224G以太網PHY和集成1.6T PCS和MAC以太網控制器、PCIe 6.x或7.0 PHY和控制器、安全IP、傳感器、DFT和UCIe PHY和控制器IP。該設計可以重新配置,為各種通道實現1.6T/3.2T/6.4T帶寬,包括45dB LR、MR和VSR以太網以及PCIe 6.x和7.0范圍。
45dB長距離以太網和UCIe重定時器Die-to-Die設計
組合PCIe/CXL/以太網和UCIe Die-to-Die設計
適用于交換機的1.6T/3.2T/6.4T可擴展IO設計
▲圖5 Multi-Die設計框圖
這種Multi-Die設計支持雙向224G數據傳輸的可配置通道數,能應對高達45dB的插入損耗。其目的是滿足AI基礎結構對更高帶寬、更低功耗和更遠傳輸距離的需求。該示例增強了CPU/GPU集群連接和創新計算架構的可擴展性,包括一致性內存擴展和資源解耦。
總結
集成PCIe和以太網等高速接口以及UCIe IP和鏈路健康監控功能,有助于擴展Multi-Die設計的帶寬。新思科技為UCIe提供高達40Gbps的高質量、完整IP解決方案,集成信號完整性監視器和可測試性功能、224G以太網及PCIe 7.0,能夠大幅提高帶寬、降低延遲并改善可擴展性。新思科技的Multi-Die設計IP解決方案遵循不斷演變的行業標準,可以與生態系統內的產品互操作,其多項前沿技術已經應用到芯片中,是實現下一代數據中心AI芯片的低風險解決方案。
-
以太網
+關注
關注
40文章
5476瀏覽量
172965 -
數據中心
+關注
關注
16文章
4906瀏覽量
72502 -
PCIe
+關注
關注
15文章
1274瀏覽量
83405 -
新思科技
+關注
關注
5文章
818瀏覽量
50473
原文標題:以太網+PCIe+UCIe IP:數據中心的三重“超能力”
文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
Microchip面向下一代數據中心應用推出四款全新20路微分時鐘緩沖器
下一代數據中心對機柜系統的要求
新思科技應對人工智能(AI)系統級芯片提出下一代架構探索解決方案
華為數據中心能源將開啟下一代智能數據中心
400G將如何引領下一代數據中心網絡
下一代數據中心100G接口——DSFP封裝

Molex莫仕Mirror Mezz Pro屢獲殊榮,為下一代數據中心提供224G解決方案

芯原推出面向下一代數據中心的全新VC9800系列IP
東盟能源和華為主編的《東盟下一代數據中心建設白皮書》正式發布

評論