在信息技術日新月異的浪潮中,DPU正逐漸嶄露頭角。當前,DPU發展的核心驅動力來自于什么?DPU技術是否已經足夠成熟到廣泛應用?市場上頭部玩家參與到這一創新技術的市場角逐之中?在算力時代,DPU應該如何找準價值定位?而中科馭數作為國內DPU先行者,又將如何解題,引領DPU行業進入到一個全新的高度?
6月19日,在中科馭數2024產品發布會上,中科馭數CEO鄢貴海發表了《重新定義DPU》主題演講,為我們深入探索DPU發展問題打開了一扇窗口,讓我們帶著這些問題,一起走進鄢老師的演講實錄。
以下為演講文字實錄:
全文6462字|閱讀約16分鐘
01
我芯所向
馭數人是有信念、有追求、有敬畏、有技術的“四有新人”
六年前,中科馭數團隊帶著對科技創新無比堅定的信念、對發展自主可控核心技術的不懈追求,對變幻莫測的市場的深深敬畏,和對未來智能計算技術趨勢的研判,從實驗室勇敢地邁出了科技創業的穩健步伐。我們也成為了有信念、有追求、有敬畏、有技術的“四有新人”。
我們馭數人有一個執念:不僅要把DPU做成一個產品,更要把“馭數”做成一個品牌,做成一個在數字時代、助力數字中國的品牌。馭數應該成為這個時代——趁勢而上的企業。
然而我們清晰地知道,趨勢并不能確保馭數的成功,時代只會給真正創新的企業以回報,只會給效率至上的企業生存空間。
創新,就是某種意義上的以弱勝強。集中資源、聚其一點,突破核心技術,用敢干務實的態度,克服千難萬難,夯實從0到1的過程。我們只聚焦DPU,不為任何風口所動。在研發DPU的過程中,也從來不抱怨環境,因為我們知道技術創新的底色就是——攻堅克難。
效率,就是以快勝慢。時間就是金錢,效率就是生命。緩慢穩健是大象的專屬權利。創新性企業,必須用一年走過別人三年的路,才有可能在市場競爭中贏得生存空間。在復雜大型芯片每代產品普遍3~5年的研發周期中,我們用6年的時間,完成了三代芯片的迭代,平均每代芯片迭代僅有不到2年的時間。同時在成本控制上,也遠小于行業的平均值。
其秘訣,就是全棧技術自主研發,重硅前驗證,快速迭代。用理論來指導實踐,而非盲目地訴諸于通過工程試錯來優化設計,把理論優勢用到極致。
02
DPU是當下算力基礎設施的核心創新
被稱為數據中心“第三大支柱”
DPU是當下算力基礎設施的核心創新之一。如果把CPU比作大腦、那么GPU就好比是肌肉、而DPU就是神經中樞。
CPU承載了應用生態,決定了計算系統是否可以通用,GPU提供了高密度各類精度的算力,決定了系統是否有足夠的“力量”,DPU負責數據在各種CPU和GPU之間高效流通,決定了系統是否能協同工作。
DPU就是構建數據網絡的“根結點”,掛載了各種計算、存儲資源的“葉節點”,無論這些處理器核是真實的物理核,還是虛擬化的核。

DPU很舊,舊到可以完全取代傳統網卡的功能。網卡俗稱為“網絡適配器”,其唯一的功能就是接收網絡發來的數據和把數據通過網絡發送出去,實現“上網”,好比交通的——綠皮車時代,解決全國主要城市基本通鐵路的問題。
然而,DPU也很新,新到被稱為這個十年最重要的創新,被寄予了數據中心三大支柱芯片之一的定位,戴上了“PU”的王冠。好比數據網絡的——高鐵時代,已經不僅僅是連通城市問題, 而是徹底重構了地理位置的邏輯距離了。
03
全球掀起DPU發展浪潮
產業頭號玩家爭先”搶灘“DPU賽道
過去五年DPU技術高速發展,特別是近三年。
短短幾年時間對于一種具備巨大產業化價值的芯片技術而言并不算長,但是對于一種新的大類芯片類型,數家國際芯片業巨頭短時間內組織研發力量并投入巨資“搶灘”式發布DPU產品也不是常見的現象。

NVIDIA于2020年發布了代號為BlueField 2的DPU產品,并高調宣稱這是數據中心場景下的“第三顆支柱型芯片(原文為the third pillar)”,同年Marvell發布了代號為OCTEON的DPU產品,主打5G基帶處理,攜手Facebook打造高性能的OpenRAN解決方案。
次年另一個芯片巨頭Intel攜全新的重磅產品IPU(Infrastructure Processing Unit)加入了對DPU市場的爭奪。前思科高管創立的科技公司Pensando在2020年HotChips會議上首次披露了其DPU的設計,主打P4,同時對PCIe設備虛擬化、存儲、信任根、加解密進行了方案的支持,從技術來看甚至有領先后續披露DPU產品的行業巨頭廠商的勢頭(該公司于2022年被AMD高價并購)。
在國內的DPU產品方面,中科馭數也在一年半前(2022年)成功流片了一顆標志性的DPU芯片,并且在網絡時延指標和吞吐性能都處于業界同期較為領先的水平。阿里云也發布了CIPU產品、天翼云、移動云也分別發布了自研的DPU加速卡產品,還有移動云、天翼、云豹等,在此不一一列舉了。據不完全統計,涉及DPU產品的公司有數十家。
可以說,在對DPU關注熱度而言,國內并不亞于國外。
04
AI算力的發展加速DPU成熟
DPU是“順”算力基礎設施的“勢”而為
按照Gartner的技術成熟度曲線Hype Cycle的規律,針對一項新技術從創新、發展、過熱、回歸、沉淀、再進入正常規模化應用的常規發展路徑,我們在過去2021年Gartner發布的Hype Cycle里出現了DPU,即“下一代SmartNICs,DPUs,IPUs”。該技術處于Hype Cycle的創新期,預測僅需要5~10年到達成熟期。而現在距離預測最早成熟期還有兩年。而AI算力的加速發展,正在加速DPU的成熟。

近年在OpenAI主導的GPT模型取得了突破性進展已經成為共識,甚至有專家認為ChatGPT已經通過了經典的圖靈測試,人們已經找到了從AI到AGI的“金鑰匙”,而“AIGC”將是新一輪的內容生成、更是財富生成的密碼。于是乎一夜之間,大模型遍地開花,僅中國有信息披露的就超過70家,可謂之盛況空前。OpenAI幾乎以一己之力把人工智能的發展掛上了高速檔。
目前人工智能發展的三要素:數據、算法、算力,在這一輪AI大模型的洗禮下,仍然重要,但是這些要素配給的挑戰程度不同了。
在數據層面,人類社會雖然有五千年文明,但真正有大量數據沉淀的時間不超過200年,真正的數據爆發已經是以計算機和互聯網的發明為標志的第三次產業革命之后的事了。也正是隨著人類社會從電氣化向數字化的轉變,數據的爆發式增長才真正到來——而這滿打滿算只不過短短五十年的時間。以當前視角下所謂的“海量”數據,對于大模型訓練而言,若非算力約束,是完全有能力消化的。

對于算法層面,雖然對創新有非常高的要求,幾乎都要走在科學的“無人區”才有可能“偶遇”突破口,但是一旦突破,驗證了可行性,就可以迅速的普及開來,當前大語言模型(LLM)的空前熱度就是證明。OpenAI的GPT取得技術突破后一旦發布,就會迅速成為各個行業的一種共性技術基礎。

而對于算力而言,相較于數據、算法層面的“軟約束”,算力面臨的是摩爾定律、登納德縮放定律、能耗指標的物理“硬約束”。例如,就算訓練GPT4的語料都具備,重新訓練一次類GPT4大模型的算力需求、訓練時間、綜合成本也會讓人望而生畏。甚至有專家斷言,從既有算力儲備的角度看,短期內在國內具備從0開始研發大模型的廠商不超過兩家。

算力就是AI時代的“面包”!如何解決算力問題,成為了人工智能技術發展面臨的最嚴峻的挑戰,特別是在當前高端算力芯片進口受控的局面下。
DPU作為專注于解決算力基礎設施層各種數據流量負載的芯片,其發展的主要驅動力也必然來自于對算力基礎設施的更高要求——正所謂順勢而為。
05
從計算系統的三個視角審視DPU核心價值
為數字經濟構造更高效、更大規模的算力底座
算力的問題不僅是單一算力芯片的問題,更是一個計算系統性的問題。有研究表明,即便是配備了較先進GPU的AI訓練集群,受限于調度策略,數據共享,計算依賴等因素,僅30%系統計算資源利用率的現象并不罕見。如果再考慮在云計算環境下的多租戶等復雜場景,資源被高度虛擬化、池化,一方面消耗了大量的CPU資源,一方面給網絡、存儲、系統安全等增加了很大的復雜度,結果就是留給客戶應用的計算資源不僅減少了,而且性能也被降級。
傳統意義上的“數據中心稅”已經不僅僅是20~30%的資源開銷問題,而是“算力經濟”是否行得通的問題!

我們需要采用系統性視角,革新我們的計算系統設計,而DPU是解決這一問題的關鍵。
為什么?答案就在我們看待計算系統的三個視角中:

視角一:DPU要解決的首要問題其實還是各種算力資源的高效使用的問題,包括CPU的資源的釋放,CPU與GPU以及GPU之間的高效通信、容器間通信、容器與虛擬機、Bare-Metal的統一調度與管理 等等。甚至可以認為DPU就是新一代算力基礎設施的“基帶”處理器(BP),解決資源的管理、數據通信問題;相應地,CPU和GPU可類比為“應用”處理器(AP),解決的是上層應用的執行問題。這里的“基帶”是以網絡為核心,類比在ISO七層協議的表示層/會話層以下的協議層,AP主要是應用層及其之上承載的豐富的各種應用。簡言之,“BP+AP”就是新一代算力芯片的核心構成,——正所謂CPU-GPU-DPU “三U一體”。
視角二:DPU是“算網”融合的關鍵。“網”這一端的核心作用是傳輸數據,核心的功能是路由和交換,但這并不是DPU的重心。“網”端的核心指標帶寬和延遲,目前看其實并不是系統性能的瓶頸所在,在服務器的“算”端能不能線速的處理那么高帶寬的數據才是性能的瓶頸所在。DPU之所以仍要處理一些路由轉發業務的原因其實是由于虛擬化技術的使用,本地資源被虛擬成了各種可獨立運行的計算資源節點(例如容器、虛擬機),在行為上與一個物理節點沒有區別,這些虛擬節點仍然有網絡互聯的需求,仍然有相互間訪問,這也是網絡在“算”端的延伸,所以也就有了OVS,SRIOV,Virt-IO等技術的需求。可以說是用“算”來實現“網”的功能——這不就是“算網融合”最具體的表現形式嗎!
視角三:基礎設施處理器的基礎性體現在網絡、存儲、安全、計算加速等服務,DPU可以承接自原來的CPU所支持的底層或獨立功能,即通常理解的“卸載”CPU的基礎層功能,特別是讓操作系統很多內核態的服務遷移到DPU上,通過硬件輔助的手段來獲得更高的性能,這也決定了DPU不僅邏輯上應該更靠近CPU,物理上也應該更緊密才好。現在備受矚目的CXL互聯協議,也為DPU進一步靠近CPU提供了更方便的途徑。進一步可以預測,維持直接相連節點間存儲數據一致性的高速互連網絡將會是DPU的核心能力之一。
總之,從功能上看,DPU將進一步推動算和網的融合,構造更加高效、更大規模的算力底座。
06
革命的產品一定不是單純指標的升級
而是深度契合了技術趨勢的發展
DPU到底值多少錢?
從DPU的價值判斷上看,應該怎樣理解DPU之于未來的計算系統的作用和價值,DPU的價值是否可以通過替代多少個CPU/GPU核、降低幾微秒網絡延遲來體現呢?
答案是肯定的,但這僅僅是“管中窺豹”,只見一斑!
革命的產品一定不是單純指標的升級,而是深度契合了技術趨勢的發展。汽車提升一下速度固然好,但是汽車做得再快,也不可能支撐航空產業的發展。
價值蘊含在趨勢中。當前,DPU的發展契合哪些趨勢呢?我們認為至少有三個重要的趨勢值得關注:

趨勢一:當前正處于人工智能時代的爆發前夜。
不可思議!短短30年產生三輪大的科技革命的奇跡即將成為現實。
2000年的互聯網,把世界變平了;2010年代的移動互聯網,改變了人們生產和生活方式,也為數字化、智能化做出了必要積累;2020年代的人工智能,大模型的劇烈演進,已經讓人們看到了AGI的曙光,同時潛在失控風險也讓一些人感到深深的不安。我們中國人非常有“先見之明”,在40年前將計算機稱之為“電腦”,真的越來越像“腦”。深度學習的發明人、圖靈獎得主Hinton明確表達了自己的觀點:今天的深度學習可能已經有了意識。OpenAI的首席科學家,Hinton的高徒Ilya Sutskever也明確的表達建立完全自主的機器是完全有可能的,現在的當務之急是如何確保機器的目標和人類的目標一致,而避免電影《終結者》中的場景成為現實。
盡管無論是腦科學還是認知科學,人們現在還是無法解釋大腦為什么會產生智能。愛因斯坦說“我們無法用提出問題的思維來解決問題”,是否可以理解為我們用人類智能來研究出的這些科學原理和經驗法則,是不可能解決人類智能的問題的。相反,如果我們無法知道它的原理,也搞不清楚它的機制,但是結果卻超出預期,反而有可能是“智能”的原因。
有觀點認為智能并不蘊含在算法中,而在數據中。深度學習、大模型只是基于簡單的計算規則,把數據的復雜性轉換成了模型的復雜性,從而將蘊含在數據中的智能嵌入到了模型中。天量的數據,堪比人腦神經元數量的模型規模,注定了算力需求必然暴漲。而迭代出的更好的模型對數據又會有更大的胃口,更大參數規模的模型;更大的算力意味著更高的智能。至此,算力與智能的正循環徹底啟動了,難以逆轉。

趨勢二:盡管摩爾定律已經放緩,但是單芯片規模還在不斷上升。“Super Computer on a single Chip”已經成為現實。Chiplet技術使得單個封裝芯片的規模可以不斷增大,但不降低良率。英偉達的GH200處理器單個芯片提供約4PFLOPS的算力(FP8精度),功率消耗控制在1000瓦。作為對比,在2010年Top500第一名的天河1A超級計算機,算力也不過2.57PFLOPS(全精度)。就目前而言,單芯片的算力還在指數增長,這就意味著單個芯片的IO性能要求必然更高了。否則,就會面臨“茶壺里面煮餃子——倒不出來”的尷尬。
趨勢三:算力的供給方式多樣化與靈活性持續增強,降低客戶的算力成本。從IaaS,PaaS、SaaS到FaaS,對資源的供給方式和抽象層次一直在不斷的變化,背后的整體趨勢是越來越弱化應用支撐的差異性,資源的粒度也越來越細化。從最早的以一臺帶著虛擬的CPU、內存、網絡、存儲資源和操作系統的虛擬機服務,到只提供函數級的服務;費用從按天/月租用虛擬機的方式計費,和利用率無關,到按照調用函數的次數來計費,pay as you go,這代表著算力資源的形式、組織方式、供給粒度都產生了巨大的變化,從粗放一直向集約化演進。這對計算系統的部署、服務、運維都提出了巨大的挑戰。
從資源管理的角度看,無論哪個層面的操作系統,都在建立在統一的視圖的基礎上,通過層次化抽象、封裝、模擬等技術來實現。例如虛擬機、容器和Bare Metal,都可作為計算節點,共享相同的物理資源池,并且有可能需要相互通信。這些計算節點會隨著應用的需求按需動態申請部署,協同工作,完成任務后即刻原地釋放了。這個管理的開銷是極大的。
大家一定對這三個趨勢的價值有自己的判斷。而相應的,對DPU的價值判斷,我相信大家已經有了答案!
以上三個趨勢有內在因果關系。當算力成為了剛需,必然導致第二個趨勢——單芯片越來越大,IO的需求越來越高,隨之管理這些資源也會越來越復雜。

其實不難理解,城市擴大了,如果基礎設施和治理機制跟不上,就會出現“大城市病”,芯片變大了沒有配套好基礎設施和治理機制,也會出現“大芯片病”。
我們不能采用線性的思維來解決這個問題。城市擴大一倍,所有車道數量并不能簡單的也擴大一倍,而是需要地鐵、輕軌、立交橋等新型的基礎設施和相應的高效流控機制。同樣的道理,解決“大芯片病”也一樣,也需要技術創新才有可能解決。
07
打通數據中心算力的“堰塞湖”
以架構決勝、軟件護城、平臺上門重新定義DPU
馭數的目標是為算力基礎設施提供一流的DPU產品,解決算力資源的彈性擴展、高效互連、加速計算、統一運維等關鍵問題,打通數據中心算力的“堰塞湖”。
我們將——
架構決勝——用最先進的芯片架構來重新定義DPU芯片架構;
軟件護城——用最高兼容性來重新定義DPU的軟件系統;
平臺上門——用最低的成本讓客戶接入DPU規模化部署與業務驗證。
為了實現這些目標,DPU已經不僅僅是一顆芯片,而是芯片、軟件、平臺的一體化工程,馭數將徹底重新定義DPU!
08
以”芯云計劃“全面進化算力基礎設施
做到手中有芯,心里有云
在2025年,中科馭數會完成K3芯片的發布,仍然采用我們最新的KPU架構,KISA2.0指令集,兼容KISA1.0,集成RISC-V輕量級控制核,處理帶寬將是K2Pro的四倍,達到800G,延遲低于1微秒,功耗比K2-Pro的下降40%。
在軟件方面,我們將逐步向各大開源社區開源我們的HADOS教育版,同時推出企業版HADOS 4.0,在性能、功能、穩定性方面全面升級。
在云平臺方面,我們也將進一步擴容馭云,推出馭云2.0,節點規模從400個節點突破到1000個節點,同時在集群部署、運維、調優、一體化、可視化方面達到更高的高度。
這些內容將構成馭數在算力基礎設施領域的“芯云計劃”。我們做芯,是為了服務云。手中有芯,心里有云。
中科馭數也會繼續為行業做貢獻,持續深度參與行業標準的制定,力爭參與和牽引標準突破100項。同時,我們也會繼續重視知識產權保護,筑牢科創根基。到2025年末,累計提交發明專利1000項、軟件著作權1000項。
而這一切,都離不開我們生態伙伴的支持與信任。這也是我們馭數的信條——協作創造價值,創新引領未來。
09
希望人們以后像記住Intel=CPU,Nvidia=GPU一樣,
記得 馭數=DPU!
回顧歷史,50多年前的1971年,當Intel發布了首顆成功的CPU產品,我們還沒有改革開放。
20多年前的1997年,Nvidia發布了讓它起死回生的GeForce系列GPU,宣告自己成為了GPU的發明者,而當時對于科技創新而言,我們還處于濃濃的“做不如買,買不如租”的氛圍中。
4年前,當DPU成為了風口浪尖的熱點時,我們已經提前出發了2年。這一次,我們終于有希望不僅是起得早,還能趕上早集。
我們更希望,人們以后像記住Intel=CPU,Nvidia=GPU一樣,記得馭數=DPU。
我們今天發布的所有成果,是中科馭數團隊2千多個日夜艱苦奮戰的結果,就在現在,我們還有同事在客戶的現場開展交付調試,還有同事奔赴在去往各個客戶交付場景的高鐵、飛機上。
感謝大家的熱情參與,期待與您在不久的將來,再次相聚,再會!

審核編輯 黃宇
-
云計算
+關注
關注
39文章
7949瀏覽量
138701 -
DPU
+關注
關注
0文章
379瀏覽量
24449 -
中科馭數
+關注
關注
0文章
128瀏覽量
4151
發布評論請先 登錄
相關推薦
中科馭數受邀參與華泰證券春季投資峰會 分享DPU在AI領域的應用
中科馭數攜手合作伙伴共同舉辦先進計算沙龍
中科馭數憑借在DPU芯片領域的積累被認定為北京市知識產權優勢單位

評論