電子發燒友網報道(文/周凱揚)深度學習硬件在AI時代已經引領了不少設計創新,無論是簡單的邊緣推理,還是大規模自然語言模型的訓練,都有了性能上的突破。作為業內在深度學習上投入最多的公司之一,英偉達無疑是這類硬件的領軍者。
近日,在伯克利大學的電子工程與電腦科學學院研討會上,英偉達的首席科學家、研究部門高級副總裁同時兼任該校副教授的BillDally,分享了從他這個從業人士看來,發生在深度學習硬件上的一些趨勢。
硬件成為限制
AI的浪潮其實早在20世紀就被多次掀起過,但真正成為人們不可忽視的巨浪,還是這十幾年的事,因為這時候AI有了天時地利人和:算法與模型,大到足夠訓練這些模型的數據集,以及能在合理的時間內訓練出這些模型的硬件。
但從帶起第一波深度學習的AlexNet,到如今的GPT-3和TuringNLG等,人們不斷在打造更大的數據集和更大的模型,加上大語言模型的興起,對訓練的要求也就越來越高。可在摩爾定律已經放緩的當下,訓練時間也在被拉長。
基于Hopper架構的H100GPU/英偉達
以英偉達為例,到了帕斯卡這一代,他們才真正開始考慮單芯片的深度學習性能,并結合到GPU的設計中去,所以才有了Hopper這樣超高規格的AI硬件出現。但我們在訓練這些模型的時候,并沒有在硬件規模上有所減少,仍然需要用到集成了數塊HopperGPU的DGX系統,甚至打造一個超算。很明顯,單從硬件這一個方向出發已經有些不夠了,至少不是一個“高性價比”的方案。
軟硬件全棧投入
硬件推出后,仍要針對特定的模型進行進一步的軟件優化,因此即便是同樣的硬件,其AI性能也會在未來呈現數倍的飛躍。從上個月的MLPerf的測試結果就可以看出,在A100GPU推出的2.5年內,英偉達就靠軟件優化實現了最高2.5倍的訓練性能提升,當然了最大的性能提升還是得靠H100這樣的新硬件來實現。
BillDally表示這就是英偉達的優勢所在,雖然這幾年投入進深度學習硬件的資本不少,但隨著經濟下行,不少投資者已經喪失了信心,所以不少AI硬件初創公司都沒能撐下去,他自己也在這段時間看到了不少向英偉達投遞過來的簡歷。
他認為不少這些公司都已經打造出了自己的矩陣乘法器,但他們并沒有在軟件上有足夠的投入,所以即便他們一開始給出的指標很好看,也經常拿英偉達的產品作為對比,未來的性能甚至比不過英偉達的上一代硬件,更別說Hopper這類新產品了。
加速器
相較傳統的通用計算硬件,加速器在深度學習上明顯要高效多了,因為加速器往往都是作為一種專用單元存在的,比如針對特定的數據類型和運算。加速器可以在一個運算周期內就完成通常需要花上10秒或100秒才能完成的工作量,效率最高可提升1000倍。
A100和H100的MLPerf跑分/英偉達
當然了要追求純粹的性能提升,而不是效率提升的話,這些加速器也可以采用大規模并行設計,比如典型的32x32矩陣乘法單元,同時運行的運算有了千百倍的提升。加速器在內存設計上也更具有優勢,比如針對特定的數據結構和運算,選擇優化過的高帶寬低能耗內存,同時盡可能使用本地內存,減少數據搬運來控制開銷。
對于英偉達來說,他們在加速器上的研究更像是為GPU準備的試驗田,一旦有優秀的成果出現,這些加速器就會成為GPU上的新核心。
小結
從BillDally的分享中,我們可以看出英偉達這樣的巨頭在深度學習上選擇的技術路線,以及他們為何能在眾多初創公司涌現、大廠入局的當下巋然不動的底氣。這并不是說深度學習硬件的道路只有這一條,類腦芯片等技術的出現也提供了新的破局機會,但有了前人經驗的借鑒后,在兼顧性能、數值精度、模型的同時,還是得在軟件上下大功夫才行。
-
計算
+關注
關注
2文章
451瀏覽量
38869 -
AI
+關注
關注
87文章
31549瀏覽量
270362 -
深度學習
+關注
關注
73文章
5516瀏覽量
121560
發布評論請先 登錄
相關推薦
評論