寫在開頭,本文主要介紹智能網卡在AI網絡的作用并在一定場景下說明DPU和智能網卡在功能上的一些區別以理解兩者的相似點和不同點。
智算中心又稱人工智能計算中心,通常配置有大量的圖形處理單元(GPU)和張量處理單元(TPU),以及針對人工智能工作負載優化的高帶寬內存和存儲系統。它們為機器學習和深度學習提供專門支持,包括數據預處理、模型訓練以及推理服務。
人工智能計算中心的設計非常重視并行處理能力,并且能夠處理大量的數據集。它們通常包括深度學習框架和庫的支持,為開發者提供方便的開發環境。此外,它們可能會提供針對人工智能應用的優化工具與API,從而最大化硬件性能。
以GPU為核心的分布式計算
GPU擁有高度并行的處理架構,能夠同時處理大量的計算任務,特別適合于人工智能領域中大規模的矩陣運算和向量計算。在智算中心,GPU是主要的計算節點,而CPU則更多承擔任務調度、系統管理和其他非并行計算任務。智算中心是以GPU為中心的架構設計,是為了滿足人工智能領域對高性能計算資源的需求,且要求網絡高可靠、超低延時及超高的帶寬。
AI智能網卡在AI網絡中的作用
我們所說的Scale-out架構的流量特性究竟是什么呢?它要求具備高吞吐量,通常約為100 Gbps,同時包長較短,典型的往返時間僅為10微秒。Scale-out架構的關鍵在于必須有效利用所有可用帶寬,并確保流量的均勻分布。GPU流量通常較大,與典型的服務器間流量存在差異,因此應高效采用負載均衡方案,如路徑感知(Path-aware)、自適應(Adaptive)或無損(Lossless)負載均衡方式。此外,還需具備快速的丟包恢復和重傳機制,以避免產生高延遲,并結合適用于該架構需求的擁塞控制算法以實現最佳性能。
AI智能網卡Smart NIC主要解決的問題就是通過與交換機、GPU等硬件互聯實現盡可能的無損通信。由于AI集群的規模從萬卡到十萬卡演進,北向網絡的擴展即Scale-out網絡互聯(又可以理解為后端網絡)通常需要配備高性能、高帶寬的智能網卡,配合其他硬件設備共同解決大規模網絡擁塞、死鎖、丟包及亂序等一系列網絡傳輸的問題。智能網卡的功能是重在網絡加速傳輸,而DPU則更適合需要降低CPU工作負載以及需要加密存儲的多類功能的場景。
以下以AMD不久前發布的AI網絡互聯結構為例可以幫助我們理解原生智能網卡和DPU的應用區別:
傳統以太網Frontend:連接非AI服務器的其他數據中心基礎設施和外部網絡,需確保安全和存儲加速能力并降低CPU開銷,AMD通過最新的Saline 400 DPU與ZEN 5 EPYC CPU連接并降低其工作負載。
后端網絡Backend:Scale-out網絡直接連接GPU,以便共享查詢和激活結果,支持大規模訓練和推理。當前面臨的挑戰主要包括高效擴展、故障恢復、網絡擁塞和數據丟失等一系列網絡傳輸問題。AMD使用8張Pollara 400 SmartNIC 與GPU /交換機互通,所以這里的網卡與DPU存在適用場景的區別。
下一代的智能網卡應該具備更高的速率帶寬(400G-800G演進),除了自適應路由、選擇性重傳功能以及支持智能堆棧的可擴展性與靈活性,能夠支持更高的QP隊列動態管理也是重要的優選性能之一。隨著UEC超以太聯盟的壯大以及基于以太網 RDMA優化的智算網絡Scale out改進路線的明確,下一代支持UEC的智能網卡將是邁向十萬卡集群的重要互聯硬件。這些創新技術為AI網絡的未來奠定了堅實的基礎,使得網絡更加高效與可靠。
智能網卡和DPU的主要結構區別
我們以英偉達BlueField-3 DPUs為例來解釋DPU和網卡的主要結構區別,BlueField 架構本質上是將網卡子系統(基于 ConnectX)與可編程數據路徑、用于加密、壓縮和正則表達式的硬件加速器以及用于控制平面的 Arm控制器融為一體。在 BlueField-3 中,可編程包處理器包含 16 個核可處理 256 個線程,實現了 Arm 核上的零負載數據路徑處理。在許多應用中,由數據路徑自主處理已知的網絡流量,由 Arm 核處理新流量等例外情況及控制平面功能。
從其內部架構我們發現BlueField-3 DPU 自帶一部分CX7的智能網卡網絡傳輸功能,針對云計算和云原生環境對多租戶安全及加密的高要求,DPU內置了強大的壓縮和加密功能。同時,為了適應云計算場景下多樣化的軟件應用需求,DPU集成了眾多加速器引擎,并配備了高性能的Arm CPU內核,有效減輕了CPU在相關領域的工作負擔。
相對而言,智能網卡主要專注于網絡加速和傳輸性能的提升,其內嵌的CPU內核更為精簡,對于加密、壓縮功能以及軟件應用加速引擎的需求并不高。因此,相較于DPU,智能網卡在功能上顯得更為“輕量級”,這一說法也因此而來。
以上綜述可以得出一個結論:新一代的SmartNIC的主要面向的是AI網絡,尤其是在分布式訓練、大規模推理的應用場景進行網絡傳輸加速與管理;它使用比DPU更少的計算能力及成本來實現這一目標。反過來說,DPU除了標準的網絡接口功能,它通常還包含多個處理核心、專用加速模塊(如加密解密、深度包檢查、虛擬化支持)等,普遍成本高于SmartNIC。
GenAI IaaS背景下SmartNIC的需求
根據國際數據公司 (IDC)發布的《中國智算服務市場(2023下半年)跟蹤》報告顯示,2023下半年中國智算服務市場整體規模達到114.1億元人民幣,同比增長85.8%。其中,2023下半年,智算集成服務市場規模為36.0億元人民幣,同比增速129.4%;GenAI IaaS市場在2023年從0到1爆發式增長,在下半年市場規模達到32.2億元人民幣;Non-GenAI IaaS市場規模達到45.9億元人民幣,以較低增速保持增長。
智算集成服務以及GenAI IaaS貢獻了市場重要增量:回顧整個2023年,中國Gen AI進入發展元年,智能算力需求爆發式增長。相比于2022年,2023年智算服務市場增長81.6億元人民幣。其中GenAI IaaS市場貢獻59%,智算集成服務市場貢獻38%。
頭部云廠商過往在AI+云計算領域有雙向積累的公司正在獲得先發優勢,如字節、阿里、百度、騰訊受益于過往在AI領域的沉淀、GPU資源以及在基礎設施上的領先技術儲備,在市場上獲得先發優勢并將其資源投入不斷向GenAI IaaS市場靠攏。
隨著AI網絡技術的不斷迭代,以Scale-out 互聯作為集群服務器間大規模擴展的需求已經成為業內共識。如今,智能網卡作為Scale-out 的關鍵組件,其產品定位與發展路線顯然與DPU不同。
根據Dell’Oro集團發布的《Ethernet Adapter and Smart NIC 5-Year July 2024 Forecast Report》,預計到2028年,以太網智能網卡的市場價值將超過160億美元。這一增長主要得益于AI服務器集群Scale-out對后端網絡以太網連接的強烈需求。隨著人工智能通用應用的出現,服務器與后端以太網網絡的連接需求日益增長,這對于大型語言模型的訓練至關重要。
以上數據并不意味著國內DPU的市場已經萎縮,由于AI大模型的爆發,云廠商們正在通過加強發展生態合作伙伴來尋求異構算力的調度以及基礎設施的集成,推動云計算與AI網絡的按需融合。
DPU和智能網卡作為現代網絡基礎設施中不可或缺的硬件組件,它們在各自的目標應用領域內展現出了潛力和廣闊的發展前景。在我國云計算、邊緣計算以及智算中心的迅猛發展背景下,我們有理由相信,未來將會有更多創新技術在這兩類產品中得到推陳出新,為國內新質生產力的崛起提供支撐。
關于我們
AI網絡全棧式互聯架構產品及解決方案提供商
奇異摩爾,成立于2021年初,是一家行業領先的AI網絡全棧式互聯產品及解決方案提供商。公司依托于先進的高性能RDMA 和Chiplet技術,創新性地構建了統一互聯架構——Kiwi Fabric,專為超大規模AI計算平臺量身打造,以滿足其對高性能互聯的嚴苛需求。我們的產品線豐富而全面,涵蓋了面向不同層次互聯需求的關鍵產品,如面向北向Scale out網絡的AI原生智能網卡、面向南向Scale up網絡的GPU片間互聯芯粒、以及面向芯片內算力擴展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產品共同構成了全鏈路互聯解決方案,為AI計算提供了堅實的支撐。
奇異摩爾的核心團隊匯聚了來自全球半導體行業巨頭如NXP、Intel、Broadcom等公司的精英,他們憑借豐富的AI互聯產品研發和管理經驗,致力于推動技術創新和業務發展。團隊擁有超過50個高性能網絡及Chiplet量產項目的經驗,為公司的產品和服務提供了強有力的技術保障。我們的使命是支持一個更具創造力的芯世界,愿景是讓計算變得簡單。奇異摩爾以創新為驅動力,技術探索新場景,生態構建新的半導體格局,為高性能AI計算奠定穩固的基石。
-
網絡
+關注
關注
14文章
7782瀏覽量
90517 -
AI
+關注
關注
88文章
34553瀏覽量
276078 -
智能網卡
+關注
關注
1文章
53瀏覽量
12522
原文標題:Kiwi Talks | AI網絡為何需要智能網卡?一文看懂智能網卡與DPU的差異
文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論