ARM發(fā)布第一代面向AI和機(jī)器學(xué)習(xí)的處理器,架構(gòu)名為“Trillium”,吸收了從硬件、數(shù)據(jù)壓縮和編譯器方面最成功的創(chuàng)新中的優(yōu)點(diǎn),其實(shí)是一款兼采眾家之長的“聚合體”。ARM表示,該處理器舍棄了高速緩存,兼具英偉達(dá)TensorCore的功能、FPGA的可編程性,以及DSP的低功耗處理能力。
在過去的幾年中,有幾家芯片創(chuàng)業(yè)公司一直致力于尋找新的方法來有效地訓(xùn)練和執(zhí)行神經(jīng)網(wǎng)絡(luò),但在現(xiàn)有技術(shù)和理念的基礎(chǔ)上,其實(shí)真的必要從頭做起嗎?
本周,在一年一度的Hot Chips會議上,ARM展示了其第一代機(jī)器學(xué)習(xí)處理器,預(yù)計(jì)今年晚些時候,ARM的合作伙伴就可以使用其IP。
兼采眾長,ARM“拼”出世界最好的AI處理器
該處理器架構(gòu)名為“Trillium”,是由一些我們并不陌生的元素與ARM的邏輯核心捆綁而來的,對于那些需要Nvidia Volta GPU的TensorCore功能的人來說,ARM這款處理器可能意義重大,比如DeePhi神經(jīng)網(wǎng)絡(luò)壓縮技術(shù)(現(xiàn)在是Xilinx的一部分)、FPGA的可編程性,以及DSP的低功耗處理能力。
換句話說,ARM可能剛剛“拼湊”出了世界上最好的AI處理器,這對于那些在大型通用設(shè)備上放置大量額外空間的芯片制造商來說,可能會帶來很大的麻煩。
ARM的技術(shù)總監(jiān)Ian Bratt本周在Hot Chips上表示,ARM首次涉足AI處理器的設(shè)計(jì)目標(biāo)是盡可能的推廣,以便能夠滿足服務(wù)器端AI的市場需求,并將自家AI處理器更多用于汽車和具有物聯(lián)網(wǎng)需求的小型設(shè)備上。
Bratt表示:
“在研發(fā)第一代機(jī)器學(xué)習(xí)處理器的過程中,我們初期出現(xiàn)了一些失誤,將舊框架套用在新問題上。我們知道GPU、CPU和DSP是如何用于機(jī)器學(xué)習(xí)上的,但我們開始研究如何能夠清晰地利用每一項(xiàng)技術(shù)。我們可以利用CPU的技術(shù)處理控制和可編程性問題,用GPU的技術(shù)解決數(shù)據(jù)壓縮、數(shù)據(jù)移動和計(jì)算密度等問題,這些都可以提高DSP的效率和開源軟件的開發(fā)。”
如下圖所示,ARM的機(jī)器學(xué)習(xí)架構(gòu)并沒有什么特別之處,但值得注意的是,該架構(gòu)吸收了從硬件、壓縮和編譯器方面最成功的創(chuàng)新中的優(yōu)點(diǎn)。
搭建架構(gòu)的模塊是計(jì)算引擎,每塊為64 KB的SRAM片,共16塊。 MAC引擎(與英偉達(dá)的TensorCore不同)是執(zhí)行卷積化的地方,可編程層引擎負(fù)責(zé)處理網(wǎng)絡(luò)各層之間的大部分必要的shuffling。該架構(gòu)具有DMA引擎,用于與外部存儲器接口進(jìn)行通信。 ARM自己的Cortex技術(shù)負(fù)責(zé)的引擎控制。
不再需要緩存,控制流程大大簡化
對于一家以創(chuàng)新為基礎(chǔ)公司而言,ARM正在走一條自己的獨(dú)特道路。公司首次涉足人工智能芯片,芯片的組件都是大家并不陌生的,ARM在用于神經(jīng)網(wǎng)絡(luò)的點(diǎn)積(dot product)引擎上做出了一些關(guān)鍵性創(chuàng)新,提升了執(zhí)行效率、降低了網(wǎng)絡(luò)噪音。
我們很可能忽略的一個要素是,靜態(tài)調(diào)度(static scheduling)的價(jià)值,這是影響芯片整體性能和效率的關(guān)鍵部分。
存儲器的訪問模式完全是可靜態(tài)分析的,并且很容易理解和映射,但是許多設(shè)備沒有利用這一點(diǎn)。 CPU具有復(fù)雜的高速緩存層次結(jié)構(gòu),可以用于非確定性存儲器訪問進(jìn)行優(yōu)化,但對于確定性的神經(jīng)網(wǎng)絡(luò),可以提前將所有內(nèi)容放在內(nèi)存中。然后,編譯器為不同的組件生成命令流(由ARM控制處理器進(jìn)行編配),到達(dá)寄存器以控制這些組件。
簡而言之就是:不需要緩存。此外還有一個好處是流量控制流程被大大簡化,可以進(jìn)一步降低能耗,提升處理器性能的可預(yù)測性。
處理卷積化的方式可以進(jìn)一步提高效率。下圖中的SRAM突出了編譯器是如何為輸入特征映射和壓縮模型分配部分資源的。每個計(jì)算引擎都將使用跨越不同計(jì)算引擎的不同特征映射。
ARM的MAC引擎可以做8個16×16點(diǎn)積。我們已經(jīng)討論了這一點(diǎn)的重要性,但是在這些操作中有很多零,可以在MAC引擎中進(jìn)行檢測和調(diào)整,以避免浪費(fèi)更多的能量。
ARM芯片還具備可編程層引擎,旨在通過可編程性“預(yù)見”處理器的。它使用Cortex CPU技術(shù)來支持非卷積運(yùn)算符,以及向量和神經(jīng)網(wǎng)絡(luò)擴(kuò)展。
使用機(jī)器學(xué)習(xí)處理器特征映射壓縮技術(shù)可以獲得更高的效率,這些技術(shù)聽起來和DeePhi在CNN壓縮上的作用類似。
打造通用平臺,實(shí)現(xiàn)機(jī)器學(xué)習(xí)與現(xiàn)有流程的整合
Bratt表示,目前ARM的機(jī)器學(xué)習(xí)業(yè)務(wù)部門擁有150名員工,隨著對機(jī)器學(xué)習(xí)需求的不斷增長,這一數(shù)字也會不斷增加,并將機(jī)器學(xué)習(xí)整合到新的和現(xiàn)有的工作流程和配置中。他表示,我們的目標(biāo)是讓這項(xiàng)工作橫跨一系列細(xì)分市場,但是要為一類用戶提供一個具備其所需全部功能的通用平臺并不簡單。
不用高速緩存、精簡壓縮流程、使用混合精度算法,并與精簡化的SRAM片上計(jì)算相結(jié)合,將其移植到密集的點(diǎn)積引擎上,這些都使得ARM的芯片IP成為市場上的一個引人注目的焦點(diǎn),而且可以針對關(guān)鍵的工作負(fù)載做進(jìn)一步的細(xì)化。
與某些AI專用處理器相比,ARM處理器增加了高帶寬內(nèi)存(HMC)可能使其更容易識別,但是需要授權(quán)用戶了解這些組件系統(tǒng)中協(xié)同工作的方式。 ARM工程師真正從生態(tài)系統(tǒng)中汲取了最佳的AI處理器技術(shù),并使用開源軟件掛鉤,可能大幅擴(kuò)大授權(quán)許可范圍。
上圖所示為Inception V3上的8X8塊,突出表示了通過零/非零濾波方法實(shí)施的無損壓縮結(jié)果,顯著降低了神經(jīng)網(wǎng)絡(luò)的規(guī)模。壓縮結(jié)果保留在內(nèi)部SRAM中,并且在SRAM中保留了網(wǎng)絡(luò)修剪技術(shù),以便在需要時使用。
對這類技術(shù)進(jìn)行授權(quán)時的選擇并不多,同時ARM也要確定,在現(xiàn)有的神經(jīng)網(wǎng)絡(luò)處理器中有哪些最成功的、值得汲取的技術(shù)和組件。
-
ARM
+關(guān)注
關(guān)注
134文章
9194瀏覽量
370233 -
編譯器
+關(guān)注
關(guān)注
1文章
1645瀏覽量
49378 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8458瀏覽量
133246
原文標(biāo)題:Arm首代AI架構(gòu)如此彪悍!集英偉達(dá)、英特爾、賽靈思三位優(yōu)勢于一體
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
Arm自研AI芯片,英偉達(dá)、MTK聯(lián)合研發(fā)Arm AI PC處理器,算力之戰(zhàn)升級
一文詳解Arm架構(gòu)Armv9.6-A中的最新功能

如何學(xué)習(xí)ARM?
【「大模型時代的基礎(chǔ)架構(gòu)」閱讀體驗(yàn)】+ 第一、二章學(xué)習(xí)感受
ARM處理器和CPU有什么區(qū)別
ARM處理器和CISC處理器的區(qū)別
ARM處理器的結(jié)構(gòu)和特點(diǎn)
ARM處理器概述和發(fā)展歷程
英特爾發(fā)布新一代Lunar Lake處理器
在英特爾酷睿Ultra處理器上優(yōu)化和部署YOLOv8模型

評論