生成類模型對(duì)于芯片的需求如前所述,以ChatGPT為代表生成類模型需要在海量的訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí),才能實(shí)現(xiàn)高質(zhì)量的生成輸出。為了支持高效率訓(xùn)練和推理,生成類模型對(duì)于相關(guān)芯片也有自己的需求。首先就是對(duì)于分布式計(jì)算的需求。ChatGPT這類語(yǔ)言類生成模型的參數(shù)量高達(dá)千億,幾乎不可能使用單機(jī)訓(xùn)練和推理,而必須大量使用分布式計(jì)算。在進(jìn)行分布式計(jì)算時(shí),對(duì)于機(jī)器之間的數(shù)據(jù)互聯(lián)帶寬,以及計(jì)算芯片對(duì)于這類分布式計(jì)算(例如RDMA)就有了很大的需求,因?yàn)楹芏鄷r(shí)候任務(wù)的瓶頸可能并不在計(jì)算,而是在數(shù)據(jù)互聯(lián)上面,尤其是在此類大規(guī)模分布式計(jì)算中,芯片對(duì)于分布式計(jì)算的高效率支持更加成為了關(guān)鍵。其次是內(nèi)存容量和帶寬。雖然對(duì)于語(yǔ)言類生成模型分布式訓(xùn)練和推理不可避免,但是每個(gè)芯片的本地內(nèi)存和帶寬也將很大程度上決定單個(gè)芯片的執(zhí)行效率(因?yàn)槊總€(gè)芯片的內(nèi)存都被使用到了極限)。對(duì)于圖像類生成模型來(lái)說(shuō),可以把模型(20GB左右)都放在芯片的內(nèi)存中,但是隨著未來(lái)圖像生成類模型的進(jìn)一步演進(jìn),它對(duì)于內(nèi)存的需求可能也會(huì)進(jìn)一步提升。在這個(gè)角度來(lái)看,以HBM為代表的超高帶寬內(nèi)存技術(shù)將會(huì)成為相關(guān)加速芯片的必然選擇,同時(shí)生成類模型也會(huì)加速HBM內(nèi)存進(jìn)一步增大容量和增大帶寬。除了HBM之外,CXL等新的存儲(chǔ)技術(shù)加上軟件的優(yōu)化也有將在這類應(yīng)用中增加本地存儲(chǔ)的容量和性能,估計(jì)會(huì)從生成類模型的崛起中獲得更多的工業(yè)界采用。最后是計(jì)算,無(wú)論是語(yǔ)言類還是圖像類生成類模型的計(jì)算需求都很大,而圖像類生成模型隨著生成分辨率越來(lái)越高以及走向視頻應(yīng)用,對(duì)于算力的需求可能會(huì)大大提升——目前的主流圖像生成模型的計(jì)算量在20 TFlops左右,而隨著走向高分辨率和圖像,100-1000 TFLOPS的算力需求很有可能會(huì)是標(biāo)準(zhǔn)。
綜上所述,我們認(rèn)為生成類模型對(duì)于芯片的需求包括了分布式計(jì)算,存儲(chǔ)以及計(jì)算,可謂是涉及了芯片設(shè)計(jì)的方方面面,而更重要的是如何把這些需求都以合理的方法結(jié)合到一起來(lái)確保某一個(gè)單獨(dú)的方面不會(huì)成為瓶頸,這也將會(huì)成為一個(gè)芯片設(shè)計(jì)系統(tǒng)工程的問(wèn)題。
GPU和新AI芯片,誰(shuí)更有機(jī)會(huì)生成式模型對(duì)于芯片有了新的需求,對(duì)于GPU(以Nvidia和AMD為代表)和新AI芯片(以Habana,GraphCore為代表),誰(shuí)更有機(jī)會(huì)能抓住這個(gè)新的需求和市場(chǎng)?首先,從語(yǔ)言類生成模型來(lái)看,由于參數(shù)量巨大,需要很好的分布式計(jì)算支持,因此目前在這類生態(tài)上已經(jīng)有完整布局的GPU廠商更有優(yōu)勢(shì)。這是一個(gè)系統(tǒng)工程問(wèn)題,需要完整的軟件和硬件解決方案,而在這個(gè)方面,Nvidia已經(jīng)結(jié)合其GPU推出了Triton解決方案。Triton支持分布式訓(xùn)練和分布式推理,可以把一個(gè)模型分成多個(gè)部分到不同的GPU上去處理,從而解決參數(shù)量過(guò)大一個(gè)GPU的主存無(wú)法容納的問(wèn)題。未來(lái)無(wú)論是直接使用Triton,還是在Triton的基礎(chǔ)上做進(jìn)一步開(kāi)發(fā),都是擁有完整生態(tài)的GPU更加方便一點(diǎn)。從計(jì)算上來(lái)看,由于語(yǔ)言類生成模型的主要計(jì)算就是矩陣計(jì)算,而矩陣計(jì)算本身就是GPU的強(qiáng)項(xiàng),因此從這一點(diǎn)來(lái)看新的AI芯片相比GPU的優(yōu)勢(shì)并不明顯。從圖像類生成模型來(lái)看,這類模型的參數(shù)量雖然也很大但是比語(yǔ)言類生成模型要小一到兩個(gè)數(shù)量級(jí),此外其計(jì)算中還是會(huì)大量用到卷積計(jì)算,因此在推理應(yīng)用中,如果能做非常好的優(yōu)化的話,AI芯片可能有一定機(jī)會(huì)。這里的優(yōu)化包括大量的片上存儲(chǔ)來(lái)容納參數(shù)和中間計(jì)算結(jié)果,對(duì)于卷積以及矩陣運(yùn)算的高效支持等。總體來(lái)說(shuō),目前這一代AI芯片在設(shè)計(jì)的時(shí)候主要針對(duì)的是更小的模型(參數(shù)量在億級(jí)別,計(jì)算量在1TOPS級(jí)別),而生成模型的需求相對(duì)而言還是比原來(lái)的設(shè)計(jì)目標(biāo)要大不少。GPU在設(shè)計(jì)時(shí)以效率為代價(jià)換取了更高的靈活度,而AI芯片設(shè)計(jì)則是反其道而行之,追求目標(biāo)應(yīng)用的效率,因此我們認(rèn)為在未來(lái)一兩年內(nèi),GPU仍將會(huì)在此類生成式模型加速中獨(dú)占鰲頭,但是隨著生成式模型設(shè)計(jì)更加穩(wěn)定,AI芯片設(shè)計(jì)有時(shí)間能追趕上生成式模型的迭代后,AI芯片有機(jī)會(huì)從效率的角度在生成式模型領(lǐng)域超越GPU。
END
歡迎加入Imagination GPU與人工智能交流2群
(添加請(qǐng)備注公司名和職稱)
推薦閱讀 對(duì)話Imagination中國(guó)區(qū)董事長(zhǎng):以GPU為支點(diǎn)加強(qiáng)軟硬件協(xié)同,助力數(shù)字化轉(zhuǎn)型【有獎(jiǎng)下載】IMG DXT GPU 讓光線追蹤觸手可及
原文標(biāo)題:ChatGPT需要怎樣的芯片?
文章出處:【微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
imagination
+關(guān)注
關(guān)注
1文章
597瀏覽量
61966
原文標(biāo)題:ChatGPT需要怎樣的芯片?
文章出處:【微信號(hào):Imgtec,微信公眾號(hào):Imagination Tech】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄

和安信可Ai-M61模組對(duì)話?手搓一個(gè)ChatGPT 語(yǔ)音助手 #人工智能 #
OpenAI免費(fèi)開(kāi)放ChatGPT搜索功能
ChatGPT新增實(shí)時(shí)搜索與高級(jí)語(yǔ)音功能
大聯(lián)大推出基于MediaTek Genio 130與ChatGPT的AI語(yǔ)音助理方案

萬(wàn)物皆AI 基于聯(lián)發(fā)科科技 MTK Genio 130 結(jié)合 ChatGPT 功能的解決方案
OpenAI推出ChatGPT搜索功能
ChatGPT:怎樣打造智能客服體驗(yàn)的重要工具?

怎樣搭建基于 ChatGPT 的聊天系統(tǒng)
ChatGPT 適合哪些行業(yè)
如何使用 ChatGPT 進(jìn)行內(nèi)容創(chuàng)作
華納云:ChatGPT 登陸 Windows
我們需要怎樣的大模型?

評(píng)論