IBM聲稱已開發出世界上第一批采用7納米技術構建的用于AI推理和訓練的高能效芯片。在2月初舉行的2021年國際固態電路虛擬會議上,該公司的研究人員詳細介紹了一種硬件加速器,該加速器支持多種模型類型,同時在所有模型類型上實現“領先”的電源效率。
AI加速器是一種專用硬件,旨在加速AI應用程序,特別是神經網絡,深度學習和機器學習。它們在設計上是多核的,并且專注于低精度算術或內存計算,這兩者都可以提高大型AI算法的性能,并帶來更好的自然語言處理,計算機視覺和其他處理。
IBM表示,其四核的芯片(仍處于研究階段)已針對具有許多不同的AI和機器學習模型的低精度工作負載進行了優化。與高精度技術相比,低精度技術需要更少的硅面積和功耗,從而提高了緩存利用率,并減少了內存瓶頸。這通常會減少訓練AI模型的時間和精力成本。
IBM的AI加速器芯片是少數采用超低精度“混合FP8 ”格式并以基于極端紫外線光刻的封裝來訓練深度學習模型的芯片。它也是率先采用電源管理的功能之一,能夠通過在高功耗的計算階段放慢速度來最大化性能。它提供了很高的持續利用率,表面上可以轉化為卓越的實際應用性能。
據了解,這顆芯片用于用于“混合” FP8訓練的時候,具有25.6Tflop / s的速度,而用于INT4推理,也可以做到102.4Top / s的速度。
混合8位浮點(HFP8)是IBM發明的一種格式(于2019年發布),它克服了標準8位(1個符號,5個指數,2個尾數)FP8浮點格式的局限性,在訓練特定的8位浮點格式時效果很好標準神經網絡,但在訓練其他網絡時會導致準確性降低。混合FP8使用4個指數和3個尾數位進行正向傳播,然后使用5個指數和2個尾數位進行逆向傳播,這大大提高了訓練的準確性。
四個核通過一對寬的快速數據環鏈接在一起,一個用于順時針傳輸,另一個用于逆時針傳輸。這些可以保持在芯片內關閉,也可以通過外部存儲器或多個相同的芯片打開并路由,以處理更大的網絡。環和內核是異步的,以允許不同的時鐘速率分別交換功率以提高性能。
每個核心分為兩個共享暫存存儲器的子核心,然后每個子核心具有8×8引擎陣列,這些引擎經過優化,可通過用于浮點和定點計算的單獨管道來加速卷積和矩陣乘法–一起提供FP16,HFP8,INT4和INT2具有AI訓練和推理功能。
該36mm 2 芯片采用EUV光刻技術制造,通過內核上的0.75V和SRAM上的0.95V達到了上述性能指標。利用在編譯網絡時收集的網絡知識,該芯片可以限制耗電的網絡層,以將其保持在功耗預算之內。標稱工作頻率(0.55V內核,0.7V SRAM)產生1GHz時鐘,并具有3.5Tflop / s / W FP8和16Top / s / W INT4。
在實驗中,IBM表示,其AI芯片通常可達到80%以上的訓練利用率和60%以上的推理利用率。此外,該芯片的性能和功率效率超過了其他專用推理和訓練芯片。
IBM未來2-3年的目標是將新穎的AI芯片設計商業應用到一系列應用中,包括在云,隱私,安全性和自動駕駛汽車方面的大規模訓練。IBM研究人員Ankur Agrawal和Kailash Gopalakrishnan在博客中寫道:“我們的新AI核心和芯片可用于跨多個行業的許多新的云到邊緣應用程序。” “例如,它們可以用于使用8位格式(相對于當前行業中使用的16位和32位格式)的視覺,語音和自然語言處理中的大規模深度學習模型的云訓練。它們還可以用于云推理應用程序,例如語音到文本AI服務,文本到語音AI服務,自然語言處理服務。
責任編輯:tzh
-
芯片
+關注
關注
459文章
52253瀏覽量
437076 -
IBM
+關注
關注
3文章
1810瀏覽量
75520 -
內存
+關注
關注
8文章
3111瀏覽量
75032 -
AI
+關注
關注
88文章
34421瀏覽量
275782
發布評論請先 登錄

評論