遮天辰东小说笔趣阁,魔天记忘语小说,欢乐颂第一季免费阅读

ARM發(fā)布第一代面向AI和機(jī)器學(xué)習(xí)的處理器，架構(gòu)名為“Trillium”，吸收了從硬件、數(shù)據(jù)壓縮和編譯器方面最成功的創(chuàng)新中的優(yōu)點(diǎn)，其實(shí)是一款兼采眾家之長(zhǎng)的“聚合體”。ARM表示，該處理器舍棄了高速緩存，兼具英偉達(dá)TensorCore的功能、FPGA的可編程性，以及DSP的低功耗處理能力。

在過(guò)去的幾年中，有幾家芯片創(chuàng)業(yè)公司一直致力于尋找新的方法來(lái)有效地訓(xùn)練和執(zhí)行神經(jīng)網(wǎng)絡(luò)，但在現(xiàn)有技術(shù)和理念的基礎(chǔ)上，其實(shí)真的必要從頭做起嗎？

本周，在一年一度的Hot Chips會(huì)議上，ARM展示了其第一代機(jī)器學(xué)習(xí)處理器，預(yù)計(jì)今年晚些時(shí)候，ARM的合作伙伴就可以使用其IP。

兼采眾長(zhǎng)，ARM“拼”出世界最好的AI處理器

該處理器架構(gòu)名為“Trillium”，是由一些我們并不陌生的元素與ARM的邏輯核心捆綁而來(lái)的，對(duì)于那些需要Nvidia Volta GPU的TensorCore功能的人來(lái)說(shuō)，ARM這款處理器可能意義重大，比如DeePhi神經(jīng)網(wǎng)絡(luò)壓縮技術(shù)（現(xiàn)在是Xilinx的一部分）、FPGA的可編程性，以及DSP的低功耗處理能力。

換句話(huà)說(shuō)，ARM可能剛剛“拼湊”出了世界上最好的AI處理器，這對(duì)于那些在大型通用設(shè)備上放置大量額外空間的芯片制造商來(lái)說(shuō)，可能會(huì)帶來(lái)很大的麻煩。

ARM的技術(shù)總監(jiān)Ian Bratt本周在Hot Chips上表示，ARM首次涉足AI處理器的設(shè)計(jì)目標(biāo)是盡可能的推廣，以便能夠滿(mǎn)足服務(wù)器端AI的市場(chǎng)需求，并將自家AI處理器更多用于汽車(chē)和具有物聯(lián)網(wǎng)需求的小型設(shè)備上。

Bratt表示：

“在研發(fā)第一代機(jī)器學(xué)習(xí)處理器的過(guò)程中，我們初期出現(xiàn)了一些失誤，將舊框架套用在新問(wèn)題上。我們知道GPU、CPU和DSP是如何用于機(jī)器學(xué)習(xí)上的，但我們開(kāi)始研究如何能夠清晰地利用每一項(xiàng)技術(shù)。我們可以利用CPU的技術(shù)處理控制和可編程性問(wèn)題，用GPU的技術(shù)解決數(shù)據(jù)壓縮、數(shù)據(jù)移動(dòng)和計(jì)算密度等問(wèn)題，這些都可以提高DSP的效率和開(kāi)源軟件的開(kāi)發(fā)。”

如下圖所示，ARM的機(jī)器學(xué)習(xí)架構(gòu)并沒(méi)有什么特別之處，但值得注意的是，該架構(gòu)吸收了從硬件、壓縮和編譯器方面最成功的創(chuàng)新中的優(yōu)點(diǎn)。

搭建架構(gòu)的模塊是計(jì)算引擎，每塊為64 KB的SRAM片，共16塊。 MAC引擎（與英偉達(dá)的TensorCore不同）是執(zhí)行卷積化的地方，可編程層引擎負(fù)責(zé)處理網(wǎng)絡(luò)各層之間的大部分必要的shuffling。該架構(gòu)具有DMA引擎，用于與外部存儲(chǔ)器接口進(jìn)行通信。 ARM自己的Cortex技術(shù)負(fù)責(zé)的引擎控制。

不再需要緩存，控制流程大大簡(jiǎn)化

對(duì)于一家以創(chuàng)新為基礎(chǔ)公司而言，ARM正在走一條自己的獨(dú)特道路。公司首次涉足人工智能芯片，芯片的組件都是大家并不陌生的，ARM在用于神經(jīng)網(wǎng)絡(luò)的點(diǎn)積（dot product）引擎上做出了一些關(guān)鍵性創(chuàng)新，提升了執(zhí)行效率、降低了網(wǎng)絡(luò)噪音。

我們很可能忽略的一個(gè)要素是，靜態(tài)調(diào)度（static scheduling）的價(jià)值，這是影響芯片整體性能和效率的關(guān)鍵部分。

存儲(chǔ)器的訪(fǎng)問(wèn)模式完全是可靜態(tài)分析的，并且很容易理解和映射，但是許多設(shè)備沒(méi)有利用這一點(diǎn)。 CPU具有復(fù)雜的高速緩存層次結(jié)構(gòu)，可以用于非確定性存儲(chǔ)器訪(fǎng)問(wèn)進(jìn)行優(yōu)化，但對(duì)于確定性的神經(jīng)網(wǎng)絡(luò)，可以提前將所有內(nèi)容放在內(nèi)存中。然后，編譯器為不同的組件生成命令流（由ARM控制處理器進(jìn)行編配），到達(dá)寄存器以控制這些組件。

簡(jiǎn)而言之就是：不需要緩存。此外還有一個(gè)好處是流量控制流程被大大簡(jiǎn)化，可以進(jìn)一步降低能耗，提升處理器性能的可預(yù)測(cè)性。

處理卷積化的方式可以進(jìn)一步提高效率。下圖中的SRAM突出了編譯器是如何為輸入特征映射和壓縮模型分配部分資源的。每個(gè)計(jì)算引擎都將使用跨越不同計(jì)算引擎的不同特征映射。

ARM的MAC引擎可以做8個(gè)16×16點(diǎn)積。我們已經(jīng)討論了這一點(diǎn)的重要性，但是在這些操作中有很多零，可以在MAC引擎中進(jìn)行檢測(cè)和調(diào)整，以避免浪費(fèi)更多的能量。

ARM芯片還具備可編程層引擎，旨在通過(guò)可編程性“預(yù)見(jiàn)”處理器的。它使用Cortex CPU技術(shù)來(lái)支持非卷積運(yùn)算符，以及向量和神經(jīng)網(wǎng)絡(luò)擴(kuò)展。

使用機(jī)器學(xué)習(xí)處理器特征映射壓縮技術(shù)可以獲得更高的效率，這些技術(shù)聽(tīng)起來(lái)和DeePhi在CNN壓縮上的作用類(lèi)似。

打造通用平臺(tái)，實(shí)現(xiàn)機(jī)器學(xué)習(xí)與現(xiàn)有流程的整合

Bratt表示，目前ARM的機(jī)器學(xué)習(xí)業(yè)務(wù)部門(mén)擁有150名員工，隨著對(duì)機(jī)器學(xué)習(xí)需求的不斷增長(zhǎng)，這一數(shù)字也會(huì)不斷增加，并將機(jī)器學(xué)習(xí)整合到新的和現(xiàn)有的工作流程和配置中。他表示，我們的目標(biāo)是讓這項(xiàng)工作橫跨一系列細(xì)分市場(chǎng)，但是要為一類(lèi)用戶(hù)提供一個(gè)具備其所需全部功能的通用平臺(tái)并不簡(jiǎn)單。

不用高速緩存、精簡(jiǎn)壓縮流程、使用混合精度算法，并與精簡(jiǎn)化的SRAM片上計(jì)算相結(jié)合，將其移植到密集的點(diǎn)積引擎上，這些都使得ARM的芯片IP成為市場(chǎng)上的一個(gè)引人注目的焦點(diǎn)，而且可以針對(duì)關(guān)鍵的工作負(fù)載做進(jìn)一步的細(xì)化。

與某些AI專(zhuān)用處理器相比，ARM處理器增加了高帶寬內(nèi)存（HMC）可能使其更容易識(shí)別，但是需要授權(quán)用戶(hù)了解這些組件系統(tǒng)中協(xié)同工作的方式。 ARM工程師真正從生態(tài)系統(tǒng)中汲取了最佳的AI處理器技術(shù)，并使用開(kāi)源軟件掛鉤，可能大幅擴(kuò)大授權(quán)許可范圍。

上圖所示為Inception V3上的8X8塊，突出表示了通過(guò)零/非零濾波方法實(shí)施的無(wú)損壓縮結(jié)果，顯著降低了神經(jīng)網(wǎng)絡(luò)的規(guī)模。壓縮結(jié)果保留在內(nèi)部SRAM中，并且在SRAM中保留了網(wǎng)絡(luò)修剪技術(shù)，以便在需要時(shí)使用。

對(duì)這類(lèi)技術(shù)進(jìn)行授權(quán)時(shí)的選擇并不多，同時(shí)ARM也要確定，在現(xiàn)有的神經(jīng)網(wǎng)絡(luò)處理器中有哪些最成功的、值得汲取的技術(shù)和組件。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

ARM

ARM

+關(guān)注

關(guān)注
134

文章
9347

瀏覽量
377068
編譯器

編譯器

+關(guān)注

關(guān)注
1

文章
1661

瀏覽量
50164
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8501

瀏覽量
134520