2023年,AI大模型實(shí)實(shí)在在地“從年頭火到年尾”。自ChatGPT成為AI大模型的第一個(gè)“出圈”應(yīng)用,以聊天機(jī)器人的形式展示出AI大模型應(yīng)用的強(qiáng)大能力后,全球各大科技公司都在加速推動(dòng)AI大模型的應(yīng)用,當(dāng)然也吸引了眾多初創(chuàng)公司入局。一時(shí)間各種AI大模型涌現(xiàn),無(wú)論是行業(yè)專用大模型還是通用認(rèn)知大模型,都為更多創(chuàng)新的AI應(yīng)用提供了技術(shù)支持。
但這種AI大模型背后的技術(shù)底層并不簡(jiǎn)單,它需要海量的數(shù)據(jù)、復(fù)雜的算法和強(qiáng)大的算力來(lái)支撐。其中,算力可以說(shuō)是人工智能發(fā)展最大的瓶頸,也是當(dāng)前AI大模型的核心競(jìng)爭(zhēng)力之一。
如果有關(guān)注微軟、谷歌、阿里巴巴、百度等國(guó)內(nèi)外科技巨頭的動(dòng)態(tài),你會(huì)發(fā)現(xiàn)這些企業(yè)去年都在大量訂購(gòu)GPU以及AI服務(wù)器等產(chǎn)品。有機(jī)構(gòu)預(yù)計(jì),AI大模型訓(xùn)練對(duì)于算力的需求未來(lái)將會(huì)以每3.5個(gè)月翻一番的速度增長(zhǎng),需求暴增驅(qū)動(dòng)了芯片企業(yè)的更新迭代,算力芯片在近幾年性能提升速度驚人。
去年11月,英偉達(dá)推出了當(dāng)今全球最強(qiáng)的GPU芯片H200,Llama2 70B大模型訓(xùn)練的性能相比上一代提高近一倍。然而在大模型時(shí)代,受限于芯片制造的物理極限,晶體管密度的提升幅度越來(lái)越小,即使單顆GPU算力提升已經(jīng)非常高,但遠(yuǎn)遠(yuǎn)無(wú)法滿足大模型的訓(xùn)練要求。
在可預(yù)見(jiàn)的未來(lái),先進(jìn)封裝以及芯片制造工藝所帶來(lái)的芯片性能提升將越來(lái)越難滿足AI大模型對(duì)算力的需求。于是在聚光燈下的算力芯片背后,高速互連技術(shù)開(kāi)始被越來(lái)越多芯片企業(yè)和系統(tǒng)廠商所關(guān)注。
01. 高速互聯(lián)技術(shù)——從“四路泰坦”到計(jì)算集群
相信資深的PC玩家大概率都聽(tīng)說(shuō)過(guò)“四路泰坦”的傳說(shuō),這是指在配備四個(gè)PCIe插槽的主板上使用了四塊“泰坦”顯卡(這是當(dāng)時(shí)最強(qiáng)的旗艦級(jí)顯卡型號(hào)),通過(guò)英偉達(dá)一種名為SLI的特殊互連技術(shù)將這四塊顯卡連接起來(lái)以大幅提升游戲圖形性能。
后來(lái)AMD也推出了與SLI類似的CrossFire(交火)技術(shù),可以將不同型號(hào)的AMD顯卡連接起來(lái),提升圖形性能。這是在PC領(lǐng)域,單個(gè)GPU性能有限的情況下,所出現(xiàn)的一種解決方案之一,同時(shí)也是高速互連技術(shù)的應(yīng)用之一。
后來(lái),因?yàn)镻C端游戲的性能需求,已經(jīng)被快速迭代的GPU性能所滿足,“多卡交火”在游戲中的實(shí)際性能也因?yàn)檫m配和性能損耗等問(wèn)題提升不明顯,這種玩法隨后逐漸在消費(fèi)級(jí)市場(chǎng)上被淘汰。
但前面我們也提到,盡管AI芯片算力近年提升神速,但在AI大模型訓(xùn)練中仍是微不足道。為了給大模型訓(xùn)練提供更強(qiáng)大的算力,業(yè)界所選擇的解決辦法是:類似顯卡“交火”般,將多個(gè)AI加速卡連接起來(lái)。
在大模型訓(xùn)練應(yīng)用中,往往會(huì)將幾百個(gè)甚至是上千個(gè)AI加速卡連接在一起,形成一個(gè)整體的系統(tǒng),才能夠運(yùn)行GPT、PaLM等大模型。
如此龐大的算力資源,首先遇到的瓶頸就是互連的通信效率。如果將AI算力系統(tǒng)看成一條工廠的流水線,那么互連技術(shù)就相當(dāng)于流水線上的傳送帶。傳送帶移動(dòng)速度太慢時(shí),即使AI芯片產(chǎn)出的數(shù)據(jù)再多,都只會(huì)堆積起來(lái),無(wú)法及時(shí)輸送到下一顆芯片上,從而限制整個(gè)工廠的效率。
所以,要怎樣將算力硬件連接起來(lái),怎樣將這些算力資源更好地進(jìn)行分配,實(shí)現(xiàn)運(yùn)算效率最大化?
問(wèn)題的關(guān)鍵,首先要從單個(gè)服務(wù)器內(nèi)部芯片的高速互連開(kāi)始解決。
實(shí)際上,在計(jì)算機(jī)系統(tǒng)中,包含了CPU、GPU、內(nèi)存、存儲(chǔ)設(shè)備等組件,這些組件都無(wú)法各自獨(dú)立運(yùn)行,一般需要通過(guò)互連協(xié)議相互連接,進(jìn)行通信和數(shù)據(jù)傳輸,才能夠協(xié)同完成計(jì)算工作。
比如PCIe作為最常見(jiàn)的高速互連標(biāo)準(zhǔn)之一,被廣泛用于CPU、GPU之間的高速互連。2003年P(guān)CI-SIG發(fā)布了PCIe 1.0規(guī)范,支持每通道傳輸速率為 2.5GT/s,最大總傳輸速率為4GB/s。在此之后的每一個(gè)版本迭代中,PCIe的傳輸速率都會(huì)以翻倍的速度增長(zhǎng),到2022年發(fā)布的PCIe 6.0規(guī)劃中,每通道傳輸速率已經(jīng)提高至64GT/s。
然而大規(guī)模計(jì)算集群的互連,對(duì)帶寬、延遲、數(shù)據(jù)傳輸效率等都有更高要求,因此在PCIe之外,從2016年開(kāi)始,各大芯片廠商都開(kāi)始下場(chǎng)推出自家的服務(wù)器內(nèi)部高速互連解決方案:英偉達(dá)在2016年推出了SLI的“高級(jí)版本”——NVLink,令多個(gè)GPU繞開(kāi)PCIe直接進(jìn)行互連,目前最新的NVLink 4.0已經(jīng)可以實(shí)現(xiàn)900 GB/s的總雙向帶寬;AMD在2016年也推出了Infinity Fabric技術(shù),外部帶寬可以達(dá)到 800GB/s ;英特爾在2019年發(fā)布了基于PCIe協(xié)議的開(kāi)放性高速互連協(xié)議CXL1.0,主要是打通了CPU和其他設(shè)備的內(nèi)存共享,支持CPU與其他加速器之間的高速互連,滿足異構(gòu)計(jì)算要求,最新的CXL 3.0通過(guò)x16鏈路可以實(shí)現(xiàn)256GB/s的雙向帶寬。
可以發(fā)現(xiàn),這些高速互連協(xié)議一般是由頭部芯片企業(yè)主導(dǎo),但問(wèn)題在于,近年來(lái)隨著算力需求的爆發(fā),不斷有新玩家投入開(kāi)發(fā)GPU、AI加速卡等產(chǎn)品。有數(shù)據(jù)顯示,全球范圍內(nèi)已經(jīng)有上百家公司布局GPU、AI加速卡領(lǐng)域,僅在中國(guó)就有60多家公司推出了各自的AI加速卡產(chǎn)品。
從好的角度看,新玩家的加入能夠?yàn)槭袌?chǎng)帶來(lái)更多的產(chǎn)品選擇,針對(duì)不同應(yīng)用也能夠更容易選擇到合適的產(chǎn)品。但另一方面,AI算力系統(tǒng)與傳統(tǒng)的CPU服務(wù)器的通用解決方案不同,AI算力系統(tǒng)本身是一種深度定制化的系統(tǒng)。
各種形態(tài)的AI加速卡背后,是各大廠商采用了不同技術(shù)路線、不同產(chǎn)品定義,這導(dǎo)致了這些AI加速卡無(wú)法兼容通用平臺(tái),需要各自定制硬件平臺(tái)。深度定制帶來(lái)的副作用就是,從芯片到算力系統(tǒng),開(kāi)發(fā)周期長(zhǎng)、研發(fā)成本高,對(duì)于計(jì)算系統(tǒng)的高速互連拓?fù)浼軜?gòu)設(shè)計(jì)、PCB設(shè)計(jì)以及制造工藝都要不斷突破與創(chuàng)新,這為AI服務(wù)器的性能提升帶來(lái)了不小的挑戰(zhàn)。
正因?yàn)槿绱耍诖竽P蜁r(shí)代,業(yè)界亟待有一個(gè)開(kāi)放的AI芯片設(shè)計(jì)規(guī)范,在芯片端或是AI加速卡等算力硬件端開(kāi)始進(jìn)行定義,以支持更強(qiáng)的算力硬件互連,創(chuàng)造出更強(qiáng)的AI算力系統(tǒng)。
02. 卡間互連速率翻倍,OAM標(biāo)準(zhǔn)要一統(tǒng)AI服務(wù)器?
早在2019年,開(kāi)放計(jì)算組織OCP就成立了OAI(開(kāi)放式加速器基礎(chǔ)設(shè)施)小組,包括Meta、微軟、百度與浪潮信息等宣布聯(lián)合制定OAM(OCP Accelerator Module開(kāi)放加速模塊) 標(biāo)準(zhǔn),用于指導(dǎo) AI 硬件加速模塊和系統(tǒng)設(shè)計(jì)。
而OAM標(biāo)準(zhǔn),就是為了解決上述提到AI加速卡硬件互相不兼容等一系列問(wèn)題,提供一套指導(dǎo)AI硬件加速模塊和系統(tǒng)設(shè)計(jì)的標(biāo)準(zhǔn),定義了AI硬件加速模塊本身、互連速率、互連拓?fù)洹⒅靼濉C(jī)箱、供電、散熱以及系統(tǒng)管理等系列設(shè)計(jì)規(guī)范。
在互連速率方面,基于OAM規(guī)范能夠?qū)崿F(xiàn)四階脈沖調(diào)制方案(PAM4,4-Level Pulse Amplitude Modulation即四電平脈沖幅度調(diào)制)的單通道56Gbps高速信號(hào)互連速率。而在不歸零編碼 (NRZ, non-return-to-zero line code)碼型下,PCIe 5.0最大只支持32Gbps的傳輸速率。
具體來(lái)說(shuō),OAM1.0規(guī)范下GPU之間支持多種高速互連通信協(xié)議,這些通信協(xié)議的物理層大多是基于以太網(wǎng)協(xié)議或者PCIe協(xié)議,其中基于以太網(wǎng)協(xié)議能夠支持56Gbps的互連速率,基于PCIe則最高支持PCIe 5.0,也就是32Gbps。
OAM的出現(xiàn),得到了業(yè)內(nèi)眾多企業(yè)的支持和參與,包括大家耳熟能詳?shù)挠ミ_(dá)、英特爾、AMD、微軟、阿里巴巴、谷歌、浪潮信息等AI芯片企業(yè)、互聯(lián)網(wǎng)企業(yè)、系統(tǒng)廠商等,大有一統(tǒng)AI服務(wù)器的趨勢(shì)。
開(kāi)放加速計(jì)算節(jié)點(diǎn)系統(tǒng)架構(gòu): 主流OAM互連拓?fù)?(a) FC (b) HCM
值得一提的是,其中作為系統(tǒng)廠商中的一員,浪潮信息第一個(gè)實(shí)現(xiàn)了符合OAM規(guī)范的8卡互連的AI系統(tǒng),首次提供了全互連(Fully-connected)和混合立體互連HCM (Hybrid Cube Mesh)兩種互連拓?fù)洹?/p>
業(yè)界主流AI服務(wù)器大多為8卡互連,主要采用的拓?fù)浼軜?gòu)有全互連和混合立方互連兩種。根據(jù)不同的神經(jīng)網(wǎng)絡(luò)模型應(yīng)用,兩種互連拓?fù)涓饔袃?yōu)勢(shì),但針對(duì)大模型應(yīng)用,全互連拓?fù)鋾?huì)更有優(yōu)勢(shì)。
簡(jiǎn)單來(lái)說(shuō),我們將單一服務(wù)器中的加速卡標(biāo)號(hào)為0到7,全互連拓?fù)浼軜?gòu)中每一張加速卡互相之間都能夠進(jìn)行通信,比如0號(hào)跟1號(hào)到7號(hào)加速卡都能直接進(jìn)行通信;混合立方互連拓?fù)浼軜?gòu)中,0號(hào)到7號(hào)加速卡之間通過(guò)組成一個(gè)或者多個(gè)雙向環(huán)的方式進(jìn)行通信,加速卡彼此之間都只能跟附近兩張加速卡進(jìn)行通信,比如0號(hào)可以跟7號(hào)和1號(hào)直接進(jìn)行通信,7號(hào)可以直接跟6號(hào)和0號(hào)進(jìn)行通信。
從上面的描述中很容易能夠感知到全互連拓?fù)鋾?huì)相對(duì)復(fù)雜,事實(shí)也確實(shí)如此。相比其他廠商采用的混合互連拓?fù)浼軜?gòu),全互連的拓?fù)湓O(shè)計(jì)在同樣的PCB材料疊層內(nèi),高速信號(hào)的總線長(zhǎng)度是其他混合互連結(jié)構(gòu)的一倍,這對(duì)PCB的設(shè)計(jì)和制造,帶來(lái)了新的挑戰(zhàn)。
03. 從56G到112G,高速互連帶來(lái)的新挑戰(zhàn)
在OAM標(biāo)準(zhǔn)實(shí)現(xiàn)了高速互連系統(tǒng)的各種設(shè)計(jì)規(guī)范后,基于OAM規(guī)范,更復(fù)雜的拓?fù)湓O(shè)計(jì),更高的互連速率,都給PCB的設(shè)計(jì)、選材和制造工藝帶來(lái)了挑戰(zhàn)。目前業(yè)界在探索OAM規(guī)范下從56G提升到112G的互連技術(shù),而更高的信號(hào)速率,意味著信號(hào)在PCB中傳輸時(shí),信號(hào)完整性和信號(hào)質(zhì)量更容易受到干擾。
在服務(wù)器一般應(yīng)用的PCB中,一般采用十層以上甚至數(shù)十層的設(shè)計(jì),以承載復(fù)雜的電路拓?fù)洹6獙?shí)現(xiàn)一個(gè)可支持8張OAM互連的基板,則需要20~30層的PCB。同時(shí)為了保證信號(hào)傳輸質(zhì)量,又需要采用長(zhǎng)度相等、相位相反的互補(bǔ)信號(hào)來(lái)傳輸同一個(gè)信號(hào),以減少噪音和EMI(電磁干擾),也就是說(shuō)所有走線的數(shù)量需要翻倍。同時(shí)走線的寬度和間距需要由始至終保持一致,如果在連接路徑上有其他的布線或者焊盤、過(guò)孔等阻礙,就需要從PCB有限的空間內(nèi)找到合適的路徑,給設(shè)計(jì)能力帶來(lái)很大挑戰(zhàn)。
對(duì)于高速互連的PCB,實(shí)際上連接器的設(shè)計(jì)也會(huì)對(duì)系統(tǒng)性能造成很大影響,比如高速信號(hào)經(jīng)過(guò)連接器時(shí)造成的損耗等,會(huì)降低信號(hào)完整性。據(jù)了解,為了保證112G高速信號(hào)完整性,浪潮信息的工程師根據(jù)更低損耗的連接器的各項(xiàng)SI特性,優(yōu)化了信號(hào)走線布局,提高了連接器整體帶寬。同時(shí)通過(guò)對(duì)背板連接器、網(wǎng)絡(luò)接口,甚至線纜等進(jìn)行仿真優(yōu)化,有效保障了112G信號(hào)設(shè)計(jì)的可靠性。
為了實(shí)現(xiàn)112G高速互連,還需要在PCB的材料上下功夫,需要尋找更低損耗的樹(shù)酯、玻璃纖維及更平滑的銅箔,以確保這些材料加工之后能夠符合信號(hào)設(shè)計(jì)可靠度的規(guī)范。為此,浪潮信息調(diào)研了業(yè)界幾乎所有的PCB板材,建立了一套完善的PCB材料電性數(shù)據(jù)庫(kù),包括針對(duì)銅箔平坦度、表面拉力、高溫影響性、蝕刻制程誤差、介電損耗等匯整了3000多筆寶貴的測(cè)試數(shù)據(jù)。
而基于這些測(cè)試數(shù)據(jù),可以更有針對(duì)性地優(yōu)化高速信號(hào)設(shè)計(jì),最終損耗性能可優(yōu)化提升8%,為112G高速互連技術(shù)的落地打下基礎(chǔ)。
112Gpbs高速互連技術(shù)既需要科學(xué)的發(fā)散,也要做到工程的收斂:通過(guò)科學(xué)的發(fā)散尋找創(chuàng)新的可能性,通過(guò)工程的收斂尋找“可行性”。創(chuàng)新的可能性空間包括了材料、工藝、方法、管理運(yùn)營(yíng)等等,而可行性則是尋找“最大化或最小化”,是尋找最優(yōu)解的過(guò)程。
04. 寫在最后
算力系統(tǒng)就像由長(zhǎng)短不一的木板組成的木桶,每個(gè)部件的發(fā)展程度各不相同,難免會(huì)出現(xiàn)一些短板。特別是應(yīng)用于AI大模型的算力集群中,單一的算力芯片可能能夠發(fā)揮100%的性能,但在系統(tǒng)中可能只能發(fā)揮80%。當(dāng)將無(wú)數(shù)顆算力芯片看成一個(gè)整體時(shí),這樣的性能損耗疊加起來(lái)是巨大的,而高速互連技術(shù),能夠在很大程度上補(bǔ)足這方面的短板,激活算力硬件100%的性能。
可以說(shuō),在AI大模型的需求下,高速互連技術(shù)已經(jīng)成為算力系統(tǒng)的新瓶頸之一,更高效的互連技術(shù)將有機(jī)會(huì)令算力集群達(dá)到前所未有的高度。當(dāng)然,算力產(chǎn)業(yè)可能也會(huì)找到更加創(chuàng)新的算力解決方案。但毋庸置疑,高速互連技術(shù)在產(chǎn)業(yè)中占有的重要地位,未來(lái)將不亞于單一的AI芯片,高速互連技術(shù)加持的高性能算力集群能夠持續(xù)推動(dòng)AI大模型應(yīng)用普惠,讓AI應(yīng)用落地變得更加輕松。
審核編輯:黃飛
評(píng)論