在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

ARM發(fā)布第一代面向AI和機(jī)器學(xué)習(xí)的處理器,架構(gòu)名為“Trillium”

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-08-27 08:32 ? 次閱讀

ARM發(fā)布第一代面向AI機(jī)器學(xué)習(xí)處理器,架構(gòu)名為“Trillium”,吸收了從硬件、數(shù)據(jù)壓縮和編譯器方面最成功的創(chuàng)新中的優(yōu)點(diǎn),其實(shí)是一款兼采眾家之長的“聚合體”。ARM表示,該處理器舍棄了高速緩存,兼具英偉達(dá)TensorCore的功能、FPGA的可編程性,以及DSP的低功耗處理能力。

在過去的幾年中,有幾家芯片創(chuàng)業(yè)公司一直致力于尋找新的方法來有效地訓(xùn)練和執(zhí)行神經(jīng)網(wǎng)絡(luò),但在現(xiàn)有技術(shù)和理念的基礎(chǔ)上,其實(shí)真的必要從頭做起嗎?

本周,在一年一度的Hot Chips會議上,ARM展示了其第一代機(jī)器學(xué)習(xí)處理器,預(yù)計(jì)今年晚些時候,ARM的合作伙伴就可以使用其IP。

兼采眾長,ARM“拼”出世界最好的AI處理器

該處理器架構(gòu)名為“Trillium”,是由一些我們并不陌生的元素與ARM的邏輯核心捆綁而來的,對于那些需要Nvidia Volta GPU的TensorCore功能的人來說,ARM這款處理器可能意義重大,比如DeePhi神經(jīng)網(wǎng)絡(luò)壓縮技術(shù)(現(xiàn)在是Xilinx的一部分)、FPGA的可編程性,以及DSP的低功耗處理能力。

換句話說,ARM可能剛剛“拼湊”出了世界上最好的AI處理器,這對于那些在大型通用設(shè)備上放置大量額外空間的芯片制造商來說,可能會帶來很大的麻煩。

ARM的技術(shù)總監(jiān)Ian Bratt本周在Hot Chips上表示,ARM首次涉足AI處理器的設(shè)計(jì)目標(biāo)是盡可能的推廣,以便能夠滿足服務(wù)器端AI的市場需求,并將自家AI處理器更多用于汽車和具有物聯(lián)網(wǎng)需求的小型設(shè)備上。

Bratt表示:

“在研發(fā)第一代機(jī)器學(xué)習(xí)處理器的過程中,我們初期出現(xiàn)了一些失誤,將舊框架套用在新問題上。我們知道GPU、CPU和DSP是如何用于機(jī)器學(xué)習(xí)上的,但我們開始研究如何能夠清晰地利用每一項(xiàng)技術(shù)。我們可以利用CPU的技術(shù)處理控制和可編程性問題,用GPU的技術(shù)解決數(shù)據(jù)壓縮、數(shù)據(jù)移動和計(jì)算密度等問題,這些都可以提高DSP的效率和開源軟件的開發(fā)。”

如下圖所示,ARM的機(jī)器學(xué)習(xí)架構(gòu)并沒有什么特別之處,但值得注意的是,該架構(gòu)吸收了從硬件、壓縮和編譯器方面最成功的創(chuàng)新中的優(yōu)點(diǎn)。

搭建架構(gòu)的模塊是計(jì)算引擎,每塊為64 KB的SRAM片,共16塊。 MAC引擎(與英偉達(dá)的TensorCore不同)是執(zhí)行卷積化的地方,可編程層引擎負(fù)責(zé)處理網(wǎng)絡(luò)各層之間的大部分必要的shuffling。該架構(gòu)具有DMA引擎,用于與外部存儲器接口進(jìn)行通信。 ARM自己的Cortex技術(shù)負(fù)責(zé)的引擎控制。

不再需要緩存,控制流程大大簡化

對于一家以創(chuàng)新為基礎(chǔ)公司而言,ARM正在走一條自己的獨(dú)特道路。公司首次涉足人工智能芯片,芯片的組件都是大家并不陌生的,ARM在用于神經(jīng)網(wǎng)絡(luò)的點(diǎn)積(dot product)引擎上做出了一些關(guān)鍵性創(chuàng)新,提升了執(zhí)行效率、降低了網(wǎng)絡(luò)噪音。

我們很可能忽略的一個要素是,靜態(tài)調(diào)度(static scheduling)的價(jià)值,這是影響芯片整體性能和效率的關(guān)鍵部分。

存儲器的訪問模式完全是可靜態(tài)分析的,并且很容易理解和映射,但是許多設(shè)備沒有利用這一點(diǎn)。 CPU具有復(fù)雜的高速緩存層次結(jié)構(gòu),可以用于非確定性存儲器訪問進(jìn)行優(yōu)化,但對于確定性的神經(jīng)網(wǎng)絡(luò),可以提前將所有內(nèi)容放在內(nèi)存中。然后,編譯器為不同的組件生成命令流(由ARM控制處理器進(jìn)行編配),到達(dá)寄存器以控制這些組件。

簡而言之就是:不需要緩存。此外還有一個好處是流量控制流程被大大簡化,可以進(jìn)一步降低能耗,提升處理器性能的可預(yù)測性。

處理卷積化的方式可以進(jìn)一步提高效率。下圖中的SRAM突出了編譯器是如何為輸入特征映射和壓縮模型分配部分資源的。每個計(jì)算引擎都將使用跨越不同計(jì)算引擎的不同特征映射。

ARM的MAC引擎可以做8個16×16點(diǎn)積。我們已經(jīng)討論了這一點(diǎn)的重要性,但是在這些操作中有很多零,可以在MAC引擎中進(jìn)行檢測和調(diào)整,以避免浪費(fèi)更多的能量。

ARM芯片還具備可編程層引擎,旨在通過可編程性“預(yù)見”處理器的。它使用Cortex CPU技術(shù)來支持非卷積運(yùn)算符,以及向量和神經(jīng)網(wǎng)絡(luò)擴(kuò)展。

使用機(jī)器學(xué)習(xí)處理器特征映射壓縮技術(shù)可以獲得更高的效率,這些技術(shù)聽起來和DeePhi在CNN壓縮上的作用類似。

打造通用平臺,實(shí)現(xiàn)機(jī)器學(xué)習(xí)與現(xiàn)有流程的整合

Bratt表示,目前ARM的機(jī)器學(xué)習(xí)業(yè)務(wù)部門擁有150名員工,隨著對機(jī)器學(xué)習(xí)需求的不斷增長,這一數(shù)字也會不斷增加,并將機(jī)器學(xué)習(xí)整合到新的和現(xiàn)有的工作流程和配置中。他表示,我們的目標(biāo)是讓這項(xiàng)工作橫跨一系列細(xì)分市場,但是要為一類用戶提供一個具備其所需全部功能的通用平臺并不簡單。

不用高速緩存、精簡壓縮流程、使用混合精度算法,并與精簡化的SRAM片上計(jì)算相結(jié)合,將其移植到密集的點(diǎn)積引擎上,這些都使得ARM的芯片IP成為市場上的一個引人注目的焦點(diǎn),而且可以針對關(guān)鍵的工作負(fù)載做進(jìn)一步的細(xì)化。

與某些AI專用處理器相比,ARM處理器增加了高帶寬內(nèi)存(HMC)可能使其更容易識別,但是需要授權(quán)用戶了解這些組件系統(tǒng)中協(xié)同工作的方式。 ARM工程師真正從生態(tài)系統(tǒng)中汲取了最佳的AI處理器技術(shù),并使用開源軟件掛鉤,可能大幅擴(kuò)大授權(quán)許可范圍。

上圖所示為Inception V3上的8X8塊,突出表示了通過零/非零濾波方法實(shí)施的無損壓縮結(jié)果,顯著降低了神經(jīng)網(wǎng)絡(luò)的規(guī)模。壓縮結(jié)果保留在內(nèi)部SRAM中,并且在SRAM中保留了網(wǎng)絡(luò)修剪技術(shù),以便在需要時使用。

對這類技術(shù)進(jìn)行授權(quán)時的選擇并不多,同時ARM也要確定,在現(xiàn)有的神經(jīng)網(wǎng)絡(luò)處理器中有哪些最成功的、值得汲取的技術(shù)和組件。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    134

    文章

    9194

    瀏覽量

    370233
  • 編譯器
    +關(guān)注

    關(guān)注

    1

    文章

    1645

    瀏覽量

    49378
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8458

    瀏覽量

    133246

原文標(biāo)題:Arm首代AI架構(gòu)如此彪悍!集英偉達(dá)、英特爾、賽靈思三位優(yōu)勢于一體

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    Arm自研AI芯片,英偉達(dá)、MTK聯(lián)合研發(fā)Arm AI PC處理器,算力之戰(zhàn)升級

    電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)作為目前兩大主流處理器架構(gòu)Arm架構(gòu)在移動處理器有著非常強(qiáng)的
    的頭像 發(fā)表于 05-14 00:14 ?4677次閱讀

    文詳解Arm架構(gòu)Armv9.6-A中的最新功能

    Arm CPU 是當(dāng)今人工智能 (AI) 賦能軟件的關(guān)鍵,它可解釋、處理和執(zhí)行指令。Arm 指令集架構(gòu) (ISA) 作為硬件和軟件的接口,指
    的頭像 發(fā)表于 12-17 10:22 ?1960次閱讀
    <b class='flag-5'>一</b>文詳解<b class='flag-5'>Arm</b><b class='flag-5'>架構(gòu)</b>Armv9.6-A中的最新功能

    如何學(xué)習(xí)ARM

    ,編寫些小型的程序,并進(jìn)行調(diào)試和測試。通過實(shí)踐項(xiàng)目,可以加深對 ARM 處理器架構(gòu)的理解和應(yīng)用。 5.深入研究高級主題: 如果你對 ARM
    發(fā)表于 10-11 10:42

    【「大模型時代的基礎(chǔ)架構(gòu)」閱讀體驗(yàn)】+ 第一、二章學(xué)習(xí)感受

    今天閱讀了《大模型時代的基礎(chǔ)架構(gòu)》前兩章,還是比較輕松舒適的;再就是本書知識和我的工作領(lǐng)域沒有任何關(guān)聯(lián),切都是新鮮的,似乎每讀頁都會有所收獲,這種快樂的學(xué)習(xí)過程感覺也挺不錯的。
    發(fā)表于 10-10 10:36

    ARM處理器和CPU有什么區(qū)別

    ARM處理器和CPU(中央處理器)之間的關(guān)系及區(qū)別,可以從多個維度進(jìn)行深入探討。首先,需要明確的是,ARM處理器并非
    的頭像 發(fā)表于 09-10 11:24 ?1949次閱讀

    ARM處理器和CISC處理器的區(qū)別

    ARM處理器和CISC(復(fù)雜指令集計(jì)算機(jī))處理器在多個方面存在顯著的區(qū)別。這些區(qū)別主要體現(xiàn)在架構(gòu)原理、性能與功耗、設(shè)計(jì)目標(biāo)、應(yīng)用領(lǐng)域以及市場生態(tài)等方面。
    的頭像 發(fā)表于 09-10 11:10 ?607次閱讀

    ARM處理器的結(jié)構(gòu)和特點(diǎn)

    ARM處理器,全稱Advanced RISC Machines,是種基于精簡指令集(RISC)架構(gòu)的微處理器。其結(jié)構(gòu)和特點(diǎn)在嵌入式系統(tǒng)、移
    的頭像 發(fā)表于 09-10 11:09 ?1762次閱讀

    ARM處理器概述和發(fā)展歷程

    ARM處理器種基于RISC(精簡指令集計(jì)算機(jī))架構(gòu)的高性能微處理器,由英國公司ARM(Adv
    的頭像 發(fā)表于 09-10 11:07 ?980次閱讀

    英特爾發(fā)布一代Lunar Lake處理器

    在近期舉辦的中國臺北國際電腦展(Computex)上,英特爾CEO蓋爾辛格向全球展示了其最新的技術(shù)成果。他發(fā)布了第六至強(qiáng)處理器,并重點(diǎn)強(qiáng)調(diào)了Gaudi AI加速
    的頭像 發(fā)表于 06-05 11:23 ?1073次閱讀

    在英特爾酷睿Ultra處理器上優(yōu)化和部署YOLOv8模型

    英特爾 酷睿 Ultra處理器是英特爾公司推出的個高端處理器品牌,其第一代產(chǎn)品基于Meteor Lake架構(gòu),使用Intel 4制程,單顆
    的頭像 發(fā)表于 05-30 17:16 ?2204次閱讀
    在英特爾酷睿Ultra<b class='flag-5'>處理器</b>上優(yōu)化和部署YOLOv8模型

    谷歌將推出第六數(shù)據(jù)中心AI芯片Trillium TPU

    在今日舉行的I/O 2024開發(fā)者大會上,谷歌公司震撼發(fā)布了其第六數(shù)據(jù)中心AI芯片——Trillium Tensor處理器單元(TPU)。
    的頭像 發(fā)表于 05-15 11:18 ?701次閱讀

    聯(lián)發(fā)科或?qū)⑴c英偉達(dá)開發(fā)Arm架構(gòu)AI PC處理器

    據(jù)悉,聯(lián)發(fā)科正與英偉達(dá)合作,共同開發(fā)基于Arm架構(gòu)AI PC處理器。這款新芯片預(yù)計(jì)將在第三季度完成設(shè)計(jì)定案,第四季度進(jìn)入驗(yàn)證階段。
    的頭像 發(fā)表于 05-13 10:18 ?616次閱讀

    華碩微星發(fā)布AGESA固件更新,確認(rèn)兼容AMD新一代Ryzen處理器

    近日,華碩與微星先后對 AMD 600 系列主板推出AGESA固件更新,確認(rèn)了其兼容“下一代AMD Ryzen CPU”的能力;技嘉亦證實(shí),下一代Ryzen桌面處理器名為“Ryzen
    的頭像 發(fā)表于 04-24 15:34 ?653次閱讀

    Arm發(fā)布一代Ethos-U AI加速 Arm旨在瞄準(zhǔn)國產(chǎn)CPU市場

    Arm發(fā)布的新一代Ethos-U AI加速確實(shí)在業(yè)界引起了廣泛關(guān)注。
    的頭像 發(fā)表于 04-18 15:59 ?862次閱讀

    第一代通用開放人形機(jī)器人本體即將發(fā)布

    北京人形機(jī)器人創(chuàng)新中心近期將發(fā)布第一代通用開放人形機(jī)器人本體,這消息標(biāo)志著人形機(jī)器人領(lǐng)域的
    的頭像 發(fā)表于 03-20 14:20 ?932次閱讀
    主站蜘蛛池模板: 欧美性第一页 | 业余性自由色xxxx视频 | 日本三级中文字幕 | 色综合97天天综合网 | 1314酒色网| 四虎在线永久视频观看 | 成人国产一区二区三区 | 久久综合97色综合网 | 国模精品视频 | 午夜影院在线免费 | 国产精品视频一区国模私拍 | www.人人干 | se94se亚洲欧美在线 | 2017亚洲男人天堂 | 永久免费在线播放 | 久久婷婷国产精品香蕉 | 久久精品综合网 | 日日干夜夜操视频 | 美女视频黄视大全视频免费网址 | 国模极品一区二区三区 | 深夜视频在线 | 男人j进女人j的一进一出视频 | 天天舔天天色 | 欧美刺激午夜性久久久久久久 | jlzzjlzzjlzz亚洲女 | 狠狠色婷婷七月色综合 | 国内自拍 亚洲系列 欧美系列 | 狠狠色狠狠色综合日日不卡 | 午夜神马福利影院 | 天天夜天干天天爽 | 在线免费观看黄色小视频 | 播播开心激情网 | 在线观看网址你懂得 | 你懂的在线免费观看 | 丁香在线| 欧美在线1 | 一级一级女人18毛片 | 性欧美xxxx乳高跟 | 午夜在线视频国产 | 日本三级在线播放线观看2021 | 激五月 |