近年來,AIGC深入滲透寫作、編程、繪畫、營銷等各個領(lǐng)域。從回答問題到完成任務,AI相關(guān)的新技術(shù)不斷發(fā)展,為生活帶來了很多便利。算力作為AI發(fā)展的支撐,其規(guī)模投入一直在持續(xù)增長。與此同時,跟AI相關(guān)的網(wǎng)絡技術(shù)即互聯(lián)技術(shù),相關(guān)的關(guān)注度及投入正在快速增加。此前,互聯(lián)相關(guān)的技術(shù)在算力中心投入不足5%,現(xiàn)在已經(jīng)逐漸增加到15%甚至20%,未來還可能會持續(xù)增加。互聯(lián),已經(jīng)成為AI算力基礎(chǔ)設施中非常重要的組成部分。
模型及應用持續(xù)發(fā)展,帶來算力形態(tài)變化
隨著基礎(chǔ)模型的變化和AI應用的變化,算力中心的算力形態(tài)也在逐漸發(fā)生變化。模型的參數(shù)規(guī)模越來越大,從千億級到萬億級的大模型仍然在持續(xù)增長。隨著推理應用的逐步落地,ROI成為了企業(yè)部署大模型考慮的關(guān)鍵,在考慮性能的同時、還需兼顧體驗和成本的平衡。所謂的性能就是支持快速的響應速度,同時要支持高并發(fā),以及在整個應用環(huán)境中取得成本的平衡。同時,輕量級小模型也在紛紛推出,邊緣推理性能大幅提升。以通義千問3-4B為例,在4B的模型上已經(jīng)可以取得不錯的應用效果,整體在端側(cè)應用表現(xiàn)出較大的優(yōu)勢。
Scaling Law受到限制,需算法和工程協(xié)同演進
很多人現(xiàn)在意識到了一個問題,經(jīng)典的基于Transformer 的Scaling Law(縮放定律)正面臨挑戰(zhàn):集群算力增長放緩,單純縮放效果放緩。首先是算力的增長跟不上軟件與模型的算力需求,其次是單純靠算力堆疊更大規(guī)模的縮放效果也逐步放緩。因此,在大模型的發(fā)展領(lǐng)域,堆算力時代已經(jīng)成為過去,工程優(yōu)化成為了必須。在這方面,DeepSeek做了一個非常好的榜樣,如何通過軟硬件協(xié)同的設計,將模型、訓練和硬件基礎(chǔ)設施整合在一起,或者是基于現(xiàn)有的硬件設施改進模型設計和優(yōu)化模型的設計等。只有通過這種方式,通過算法、軟硬件、工程協(xié)同的進展,才能夠持續(xù)過去的縮放定律或者持續(xù)這種性能提升的趨勢。
為何互聯(lián)在高性能AI發(fā)展中存在重要價值?
在訓練和推理的規(guī)模越來越大的情況下,對算力的需求越來越增加,通信的效能就成為了整個模型關(guān)鍵的影響因素。根據(jù)Meta在2024年的相關(guān)數(shù)據(jù),在模型訓練不同的情況下,通信的開銷占比已經(jīng)占到整個時間的平均30%左右。如今,隨著AI推理的落地,大家也發(fā)現(xiàn),其響應速度也就是TPOT(Time Per Output Token)和互聯(lián)性能成正比,互聯(lián)速度越高,吞吐速度越高,即TPOT會越強。
大模型訓推的并行方式
在大模型訓練和推理方式上,業(yè)界也有比較多的并行技術(shù)可以幫助提升訓練效率,比如張量并行、流水線并行、數(shù)據(jù)并行、專家并行等等。(注:DP數(shù)據(jù)并行不適用推理側(cè))
TP 是張量并行(Tensor Parallel),是對模型的每個層做了一個層內(nèi)的拆分。使用TP 能達到很好的 GPU 利用率。TP通信粒度是非常細的。TP 每計算完成一次層的拆分,就需要有一次通信來做 AllReduce 合并,雖然 TP 單次通信量較小,但是它通信頻率頻次都很高,對帶寬的要求也很高。
PP 是流水線并行(Pipeline Parallel),也就是模型的層與層之間拆分,把不同的層放到不同的 GPU 上。在計算過程中,必須順序執(zhí)行,后面的計算過程依賴于前面的計算結(jié)果。一個完整的 Pipeline運行起來需要將一個workload 切分成很小的多個 workload,也就是需要將一個比較大 Batch size 切分成很多個小 Batch 才能保持流水線并行的高吞吐。
EP是專家并行(Expert Parallel),是指在專家模型中,將不同的專家分配到不同設備上,每個設備只負責一部分專家的計算。專家并行可以增加模型的容量,同時提高計算效率。但需要在設備間不斷傳輸數(shù)據(jù)和梯度,對于通信頻次開銷要求高。在一定程度上還要通過有效的路由機制,確保專家之間的負載均衡。
大模型在進行并行計算過程中,TP(張量并行)已經(jīng)占到了整個通信量的80%,需要TB級別的帶寬(Scale-up GPU間互聯(lián)),所以超節(jié)點變成了非常重要的技術(shù)手段。DP(數(shù)據(jù)并行)和PP(流水線并行)一般通過Scale out互聯(lián)應對,需要Tb級別的帶寬;而在將MoE引入EP(專家并行)通信,則會帶來更復雜的流量。在不同的情況下,流量不同,需要更復雜的調(diào)度算法和更完善的通信技術(shù)手段。
在Scale-up 網(wǎng)絡側(cè),超節(jié)點已經(jīng)成為大規(guī)模訓練、并行推理中重要的支撐技術(shù)。
超節(jié)點將成百上千張GPU互聯(lián)在一起,猶如一個巨型GPU般工作;此外,還可以通過構(gòu)建更大的HBD系統(tǒng),以應對多種并行通信造成的巨大通信數(shù)據(jù)量。因此需要在更大規(guī)模的機柜或者幾個機柜之間,引入超高帶寬的互聯(lián),這通常是TB級別的。這會帶來什么好處?以英偉達為例,在Hopper架構(gòu)時代的DGX8卡,跟基于GB300的NVL72相比,超節(jié)點的性能帶來了50倍的提升,同時其投入產(chǎn)出比也帶來了十倍的提升。
但在AI網(wǎng)絡中,Scale-up面臨著四大挑戰(zhàn):
一是需要超高帶寬;
二是需要可擴展的拓撲,支持不同的超節(jié)點的形態(tài);
第三是需要通用的協(xié)議來做互聯(lián)互通,傳統(tǒng)的通算協(xié)議(PCIe/CXL)和私有協(xié)議都具備局限性,因此業(yè)界的主要Scale up生態(tài),都在做Scale Up協(xié)議的標準化,從而實現(xiàn)通用化標準化的目標;
第四是多語義的支持。
從Scale-out側(cè)來看,AI網(wǎng)絡面臨幾大核心挑戰(zhàn):
首先需要非常高的傳輸性能,Tb級別的傳輸延時要可控;
其次是要實現(xiàn)萬卡、十萬卡甚至更大規(guī)模流控的能力;
第三是要有相對可以控制的部署成本,因為企業(yè)部署的數(shù)量太多,理論上而言一個或者兩個GPU就需要配備一個超級網(wǎng)卡。
因此,智算行業(yè)正在發(fā)生變化。智算的集群里面需要的是針對AI原生的超級網(wǎng)卡。AI本質(zhì)是需要一個非常高效的方式來進行網(wǎng)絡傳輸,需要非常高性能的RDMA引擎,需要更加復雜的網(wǎng)絡控制,來真正有效的實現(xiàn)數(shù)據(jù)傳輸。
從協(xié)議的角度來看,過去傳統(tǒng)的RDMA有一些不足之處,因此業(yè)界需要一個更加現(xiàn)代化的下一代RDMA的標準,即UEC(Ultra Ethernet Consortium,超級以太網(wǎng)聯(lián)盟)。自去年誕生之后,UEC已經(jīng)完成了多項工作,核心就是要解決復雜網(wǎng)絡之間的多徑傳輸、亂序等問題,以及實現(xiàn)擁塞情況下更好的流控手段和更高效的重傳方式。這些都是需要在AI里面來解決的,也是RDMA需要面對的新挑戰(zhàn)。
奇異摩爾如何通過互聯(lián)構(gòu)建高性能AI基礎(chǔ)設施
對于國產(chǎn)算力而言,產(chǎn)業(yè)界眾多企業(yè)正共同努力,以構(gòu)建國產(chǎn)算力的集群與基礎(chǔ)設施。GPU或者說AI芯片,當然是其中非常重要的手段,在AI芯片之外,互聯(lián)也非常重要。
奇異摩爾作為AI網(wǎng)絡互聯(lián)領(lǐng)域極少數(shù)可以提供全棧式互聯(lián)產(chǎn)品架構(gòu)及解決方案的供應商,依托于高性能RDMA 和Chiplet技術(shù),聚焦AI互聯(lián)領(lǐng)域,構(gòu)建了一整套覆蓋Scale-out網(wǎng)間互聯(lián)、Scale-up超節(jié)點GPU片間互聯(lián)及Scale-inside 芯片內(nèi)互聯(lián)的產(chǎn)品解決方案,為AI高性能計算提供了堅實的支撐。
在第五屆中國集成電路設計創(chuàng)新大會暨IC應用生態(tài)展(ICDIA創(chuàng)芯展)上,奇異摩爾首席網(wǎng)絡架構(gòu)專家葉棟受邀出席本次大會,并將在AIDC開發(fā)者論壇上進行主題為《從橫向擴展邁向縱向升級:全棧式互聯(lián)重塑高性能 AI 基礎(chǔ)設施》的演講,分享AI大模型訓推基礎(chǔ)設施趨勢及挑戰(zhàn)并分享奇異摩爾的互聯(lián)產(chǎn)品解決方案。
活動預告
大會簡介
本屆大會以“自主創(chuàng)新?應用落地?生態(tài)共建”為主題,圍繞AI大算力與數(shù)據(jù)處理、光子集成電路、超異構(gòu)計算、RISC-V生態(tài)、5G射頻/6G半導體、AIoT與邊緣計算、智能汽車與自動駕駛,分享前沿技術(shù)突破與應用場景,推動創(chuàng)新成果轉(zhuǎn)化與產(chǎn)業(yè)鏈協(xié)同,促進芯片、應用方案與整機研發(fā)深度合作。
ICDIA創(chuàng)芯展以“1+1+4+1”模式,即打造1場高峰論壇、1場AI開發(fā)者主題大會、4場分論壇(先進設計與創(chuàng)芯應用+汽車芯片與智能駕駛+AIoT與智聯(lián)生態(tài)+產(chǎn)研項目與投資對接)、1場IC應用生態(tài)展。
演講嘉賓
葉棟,2002年北郵博士畢業(yè),B-ISDN寬帶通信專業(yè),擁有超過20年的網(wǎng)絡互聯(lián)系統(tǒng)架構(gòu)設計經(jīng)驗 ,在AI網(wǎng)絡協(xié)議、RDMA、虛擬化、軟件協(xié)議棧等方面擁有豐富的專業(yè)知識。在英特爾(中國)工作多年,曾任英特爾網(wǎng)絡互聯(lián)產(chǎn)品事業(yè)部技術(shù)總監(jiān),負責英特爾以太網(wǎng),P4可編程交換芯片,FPGA智能網(wǎng)卡, Google IPU相關(guān)系統(tǒng)架構(gòu)產(chǎn)品的本地化研發(fā)和部署。啟動和主導了基于FPGA的智能網(wǎng)卡方案在國內(nèi)的設計開發(fā)和推廣,構(gòu)建了多家大型云廠商和服務商等大規(guī)模部署的技術(shù)方案的底座。
關(guān)于我們
AI網(wǎng)絡全棧式互聯(lián)架構(gòu)產(chǎn)品及解決方案提供商
奇異摩爾,成立于2021年初,是一家行業(yè)領(lǐng)先的AI網(wǎng)絡全棧式互聯(lián)產(chǎn)品及解決方案提供商。公司依托于先進的高性能RDMA 和Chiplet技術(shù),創(chuàng)新性地構(gòu)建了統(tǒng)一互聯(lián)架構(gòu)——Kiwi Fabric,專為超大規(guī)模AI計算平臺量身打造,以滿足其對高性能互聯(lián)的嚴苛需求。我們的產(chǎn)品線豐富而全面,涵蓋了面向不同層次互聯(lián)需求的關(guān)鍵產(chǎn)品,如面向北向Scale-out網(wǎng)絡的AI原生超級網(wǎng)卡、面向南向Scale-up網(wǎng)絡的GPU片間互聯(lián)芯粒、以及面向芯片內(nèi)算力擴展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產(chǎn)品共同構(gòu)成了全鏈路互聯(lián)解決方案,為AI計算提供了堅實的支撐。
-
AI
+關(guān)注
關(guān)注
88文章
35041瀏覽量
279046 -
奇異摩爾
+關(guān)注
關(guān)注
0文章
60瀏覽量
3725 -
大模型
+關(guān)注
關(guān)注
2文章
3132瀏覽量
4045
原文標題:奇異摩爾受邀出席ICDIA 2025 創(chuàng)芯展AI開發(fā)者論壇,邀您共探AI Networking互聯(lián)趨勢
文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
啟揚受邀參加2025瑞芯微開發(fā)者大會

芯原邀您相約ICDIA 2025創(chuàng)芯展
米爾將出席瑞芯微第九屆開發(fā)者大會

軟通動力出席華為開發(fā)者大會2025
全志科技亮相OpenHarmony開發(fā)者大會2025

迅龍軟件應邀出席開源鴻蒙開發(fā)者大會2025,AI分論壇發(fā)表主旨演講

開源鴻蒙開發(fā)者大會2025·AI分論壇圓滿閉幕,探索開源鴻蒙AI無限可能

格靈深瞳亮相Create2025百度AI開發(fā)者大會
普華基礎(chǔ)軟件受邀出席矽力杰2025開發(fā)者大會
奇異摩爾受邀出席第三屆HiPi Chiplet論壇
官宣!聯(lián)發(fā)科天璣開發(fā)者大會2025定檔4月11日
2025昇騰AI開發(fā)者創(chuàng)享日浙江站成功舉辦,現(xiàn)場演示OrangePi AIpro(20T)部署DeepSeek模型開發(fā)全流程

蘋芯科技亮相2024中國AI芯片開發(fā)者論壇
2024深圳 | 中國AI芯片開發(fā)者論壇

評論