電子發(fā)燒友網(wǎng)報道(文/周凱揚(yáng))深度學(xué)習(xí)硬件在AI時代已經(jīng)引領(lǐng)了不少設(shè)計創(chuàng)新,無論是簡單的邊緣推理,還是大規(guī)模自然語言模型的訓(xùn)練,都有了性能上的突破。作為業(yè)內(nèi)在深度學(xué)習(xí)上投入最多的公司之一,英偉達(dá)無疑是這類硬件的領(lǐng)軍者。
近日,在伯克利大學(xué)的電子工程與電腦科學(xué)學(xué)院研討會上,英偉達(dá)的首席科學(xué)家、研究部門高級副總裁同時兼任該校副教授的BillDally,分享了從他這個從業(yè)人士看來,發(fā)生在深度學(xué)習(xí)硬件上的一些趨勢。
硬件成為限制
AI的浪潮其實(shí)早在20世紀(jì)就被多次掀起過,但真正成為人們不可忽視的巨浪,還是這十幾年的事,因?yàn)檫@時候AI有了天時地利人和:算法與模型,大到足夠訓(xùn)練這些模型的數(shù)據(jù)集,以及能在合理的時間內(nèi)訓(xùn)練出這些模型的硬件。
但從帶起第一波深度學(xué)習(xí)的AlexNet,到如今的GPT-3和TuringNLG等,人們不斷在打造更大的數(shù)據(jù)集和更大的模型,加上大語言模型的興起,對訓(xùn)練的要求也就越來越高。可在摩爾定律已經(jīng)放緩的當(dāng)下,訓(xùn)練時間也在被拉長。
基于Hopper架構(gòu)的H100GPU/英偉達(dá)
以英偉達(dá)為例,到了帕斯卡這一代,他們才真正開始考慮單芯片的深度學(xué)習(xí)性能,并結(jié)合到GPU的設(shè)計中去,所以才有了Hopper這樣超高規(guī)格的AI硬件出現(xiàn)。但我們在訓(xùn)練這些模型的時候,并沒有在硬件規(guī)模上有所減少,仍然需要用到集成了數(shù)塊HopperGPU的DGX系統(tǒng),甚至打造一個超算。很明顯,單從硬件這一個方向出發(fā)已經(jīng)有些不夠了,至少不是一個“高性價比”的方案。
軟硬件全棧投入
硬件推出后,仍要針對特定的模型進(jìn)行進(jìn)一步的軟件優(yōu)化,因此即便是同樣的硬件,其AI性能也會在未來呈現(xiàn)數(shù)倍的飛躍。從上個月的MLPerf的測試結(jié)果就可以看出,在A100GPU推出的2.5年內(nèi),英偉達(dá)就靠軟件優(yōu)化實(shí)現(xiàn)了最高2.5倍的訓(xùn)練性能提升,當(dāng)然了最大的性能提升還是得靠H100這樣的新硬件來實(shí)現(xiàn)。
BillDally表示這就是英偉達(dá)的優(yōu)勢所在,雖然這幾年投入進(jìn)深度學(xué)習(xí)硬件的資本不少,但隨著經(jīng)濟(jì)下行,不少投資者已經(jīng)喪失了信心,所以不少AI硬件初創(chuàng)公司都沒能撐下去,他自己也在這段時間看到了不少向英偉達(dá)投遞過來的簡歷。
他認(rèn)為不少這些公司都已經(jīng)打造出了自己的矩陣乘法器,但他們并沒有在軟件上有足夠的投入,所以即便他們一開始給出的指標(biāo)很好看,也經(jīng)常拿英偉達(dá)的產(chǎn)品作為對比,未來的性能甚至比不過英偉達(dá)的上一代硬件,更別說Hopper這類新產(chǎn)品了。
加速器
相較傳統(tǒng)的通用計算硬件,加速器在深度學(xué)習(xí)上明顯要高效多了,因?yàn)榧铀倨魍际亲鳛橐环N專用單元存在的,比如針對特定的數(shù)據(jù)類型和運(yùn)算。加速器可以在一個運(yùn)算周期內(nèi)就完成通常需要花上10秒或100秒才能完成的工作量,效率最高可提升1000倍。
A100和H100的MLPerf跑分/英偉達(dá)
當(dāng)然了要追求純粹的性能提升,而不是效率提升的話,這些加速器也可以采用大規(guī)模并行設(shè)計,比如典型的32x32矩陣乘法單元,同時運(yùn)行的運(yùn)算有了千百倍的提升。加速器在內(nèi)存設(shè)計上也更具有優(yōu)勢,比如針對特定的數(shù)據(jù)結(jié)構(gòu)和運(yùn)算,選擇優(yōu)化過的高帶寬低能耗內(nèi)存,同時盡可能使用本地內(nèi)存,減少數(shù)據(jù)搬運(yùn)來控制開銷。
對于英偉達(dá)來說,他們在加速器上的研究更像是為GPU準(zhǔn)備的試驗(yàn)田,一旦有優(yōu)秀的成果出現(xiàn),這些加速器就會成為GPU上的新核心。
小結(jié)
從BillDally的分享中,我們可以看出英偉達(dá)這樣的巨頭在深度學(xué)習(xí)上選擇的技術(shù)路線,以及他們?yōu)楹文茉诒姸喑鮿?chuàng)公司涌現(xiàn)、大廠入局的當(dāng)下巋然不動的底氣。這并不是說深度學(xué)習(xí)硬件的道路只有這一條,類腦芯片等技術(shù)的出現(xiàn)也提供了新的破局機(jī)會,但有了前人經(jīng)驗(yàn)的借鑒后,在兼顧性能、數(shù)值精度、模型的同時,還是得在軟件上下大功夫才行。
-
計算
+關(guān)注
關(guān)注
2文章
452瀏覽量
39147 -
AI
+關(guān)注
關(guān)注
87文章
33552瀏覽量
274124 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5547瀏覽量
122296
發(fā)布評論請先 登錄
相關(guān)推薦
硬件工程師學(xué)習(xí)路線,不吹牛規(guī)劃

擁有一顆熱愛學(xué)習(xí)硬件開發(fā)的決心!
移遠(yuǎn)通信×扣子:AI與硬件深度融合,加速AI智能體高效開發(fā)新生態(tài)

智算中心的核心硬件是什么?

如何快速學(xué)習(xí)硬件電路

學(xué)習(xí)硬件的第一節(jié)課:學(xué)習(xí)讀懂原理圖

NPU在深度學(xué)習(xí)中的應(yīng)用
pcie在深度學(xué)習(xí)中的應(yīng)用
GPU深度學(xué)習(xí)應(yīng)用案例
FPGA加速深度學(xué)習(xí)模型的案例
FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?
如何幫助孩子高效學(xué)習(xí)Python:開源硬件實(shí)踐是最優(yōu)選擇
EVASH Ultra EEPROM:被美國權(quán)威雜志評為優(yōu)秀硬件存儲廠商
EVASH Ultra EEPROM:被Google認(rèn)定為五大硬件廠商之一
深度學(xué)習(xí)編譯工具鏈中的核心——圖優(yōu)化

評論