在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種基于FPGA的高性能DNN加速器自動(dòng)生成方案

DPVg_AI_era ? 來(lái)源:未知 ? 作者:李倩 ? 2018-11-16 10:39 ? 次閱讀

美國(guó)伊利諾伊大學(xué)、IBM中國(guó)研究院等的最新研究,提出一種基于FPGA的DNN推理加速器DNNBuilder,獲得電子設(shè)計(jì)自動(dòng)化領(lǐng)域?qū)W術(shù)頂會(huì)ICCAD的最佳論文。實(shí)驗(yàn)證明,DNNBuilder生成的加速器擁有現(xiàn)時(shí)最先進(jìn)的性能和效率,超越了同類加速器。本文帶來(lái)論文作者的詳細(xì)解讀。

FPGA 編程耗時(shí)耗力,即使對(duì)專業(yè)人員來(lái)說(shuō)也頗有難度。如何才能加速深度神經(jīng)網(wǎng)絡(luò)模型在FPGA上的部署?

有沒(méi)有想過(guò),要是有個(gè)能“一鍵自動(dòng)生成”FPGA上DNN模型實(shí)現(xiàn)的工具就好了?

你還別說(shuō),現(xiàn)在還真有一款這樣的工具,而且云端和邊緣的設(shè)備都適用!

相關(guān)研究論文獲得了第37屆電子設(shè)計(jì)自動(dòng)化頂會(huì)International Conference on Computer Aided Design(ICCAD)的最佳論文獎(jiǎng)。

獲獎(jiǎng)團(tuán)隊(duì)研究成員來(lái)自美國(guó)伊利諾伊大學(xué)(UIUC)、IBM中國(guó)研究院及IBM T. J. Watson研究中心。該團(tuán)隊(duì)同時(shí)隸屬于IBM和UIUC聯(lián)合成立的認(rèn)知計(jì)算AI系統(tǒng)研究中心(C3SR.com)。

全文地址:

https://zhangxf218.wixsite.com/mysite

DNN推理加速挑戰(zhàn)巨大

DNN應(yīng)用已被廣泛部署于云端和終端設(shè)備中,如人臉識(shí)別、語(yǔ)音識(shí)別(翻譯)、產(chǎn)品推薦、物體檢測(cè)等。這些應(yīng)用需要大量計(jì)算與存儲(chǔ)資源,以滿足其高吞吐率、低能耗和低延時(shí)要求。

可見(jiàn),不論是云端還是終端計(jì)算, DNN的推理過(guò)程都需要作加速處理才能適應(yīng)日常使用需求。在加速器的設(shè)計(jì)上,設(shè)計(jì)者無(wú)可避免地會(huì)遇到多種挑戰(zhàn),包括:

流式數(shù)據(jù)(如視頻輸入輸出)要求加速器具備高吞吐率和低延時(shí)的DNN推理性能;

不平衡的DNN網(wǎng)絡(luò)要求加速器設(shè)計(jì)擁有合理的資源分配策略以平衡不同網(wǎng)絡(luò)層的資源需求;

高分辨率圖片和視頻輸入要求加速器能應(yīng)對(duì)由此帶來(lái)的巨大片上數(shù)據(jù)緩存壓力。

使用FPGA,高效靈活的DNN加速方案

本文作者提出使用基于FPGA的DNN推理加速器去應(yīng)對(duì)上述挑戰(zhàn)。

FPGA可提供比基于CPUGPU解決方案更低的延時(shí)和能耗,也能提供比專用集成電路ASIC)更高的靈活度和更短的產(chǎn)品上市周期,是非常理想的DNN加速平臺(tái)。

可是,設(shè)計(jì)一個(gè)基于FPGA的高性能DNN推理加速器還是充滿了困難,它需要寄存器傳輸級(jí)(RTL)編程技巧,硬件驗(yàn)證知識(shí)和豐富的硬件資源分配經(jīng)驗(yàn)等硬件設(shè)計(jì)相關(guān)知識(shí),對(duì)于在算法層面關(guān)注深度學(xué)習(xí)的研究人員來(lái)說(shuō)是非常不友好的。

為此,作者認(rèn)為業(yè)界需要一種更加便捷的端到端DNN加速器自動(dòng)生成方案——DNNBuilder。

只需三步,獲得高性能DNN加速器

圖 1 DNN推理加速器自動(dòng)生成流程

DNNBuilder只需Design、Generation和Execution三步就能自動(dòng)生成基于FPGA的高性能DNN推理加速器,并能把加速器快捷部署到云端或終端不同的FPGA上而不要求使用者了解RTL編程或硬件資源分配策略。

其中,DNNBuilder的第一步支持熱門的深度學(xué)習(xí)框架(如Caffe,Tensorflow),使用者能繼續(xù)使用原有的網(wǎng)絡(luò)設(shè)計(jì)和訓(xùn)練工具去定制DNN,并可像往常一樣使用GPU加速訓(xùn)練過(guò)程。特別的一點(diǎn)是,本文作者在Design步驟中增加了網(wǎng)絡(luò)更新接口以接收該加速器在硬件性能方面的反饋,并以此引導(dǎo)使用者對(duì)DNN作相應(yīng)優(yōu)化(如增減層數(shù)、調(diào)整量化方案等)。

DNNBuilder的第二步操作會(huì)接收上一步訓(xùn)練好的網(wǎng)絡(luò)定義及權(quán)重?cái)?shù)據(jù)文件,并開(kāi)始分析網(wǎng)絡(luò)結(jié)構(gòu)和提取關(guān)鍵參數(shù),如網(wǎng)絡(luò)層數(shù)、網(wǎng)絡(luò)層種類、通道數(shù)等。根據(jù)對(duì)網(wǎng)絡(luò)的理解,DNNBuilder會(huì)綜合考慮DNN每層復(fù)雜度、權(quán)重?cái)?shù)據(jù)可重用程度和可用的FPGA硬件資源,自動(dòng)生成性能優(yōu)化策略。隨后,DNNBuilder會(huì)根據(jù)優(yōu)化策略配置預(yù)制的高度參數(shù)化的RTL IP,并使用這些IP搭建整個(gè)DNN加速器。

在DNNBuilder的最后一步,使用者可以把生成的二進(jìn)制文件下載至FPGA,運(yùn)行DNN推理加速器。

三大硬件設(shè)計(jì)創(chuàng)新

本文提出了多個(gè)DNN加速器架構(gòu)創(chuàng)新,令自動(dòng)生成的加速器也擁有現(xiàn)時(shí)最高的吞吐率、最少的輸出響應(yīng)時(shí)間和極佳的可拓展性。論文著重介紹的有三個(gè)創(chuàng)新點(diǎn),包括“列緩存方案(a column-based cache scheme)”、“細(xì)粒度流水線結(jié)構(gòu)(a fine-grained layer-based pipeline structure)”和“高性能RTL IP (optimized and reconfigurable DNN-specific RTL IPs)”。

1)列緩存方案能在使用高清輸入的情況下大幅減少存放特征圖(feature map)所需的緩存空間,其核心思想是通過(guò)緩存若干slices代替緩存整個(gè)3維特征圖(圖2左),從而減少FPGA片上存儲(chǔ)器(Block RAM)的使用量。

只要這些被緩存的數(shù)據(jù)可提供足夠數(shù)量的卷積滑窗操作,不同網(wǎng)絡(luò)層之間的操作就能繼續(xù)下去。如當(dāng)前的網(wǎng)絡(luò)層為卷積層(卷積核=3x3,stride=1),緩存4個(gè)slices就能滿足2次滑窗操作,當(dāng)需要做第三次滑窗時(shí),只需要傳入1個(gè)新的slice替代舊數(shù)據(jù)即可。

此設(shè)計(jì)可行的根本原因是特征圖數(shù)據(jù)生命周期短,可在計(jì)算后立刻丟棄以節(jié)省空間。實(shí)驗(yàn)表明(見(jiàn)圖2右),在運(yùn)行高清輸入的YOLO加速器時(shí),在使用列緩存方案可減少7至320倍的片上緩存使用量(平均減少43倍)。

2)細(xì)粒度流水線結(jié)構(gòu)可在保留傳統(tǒng)流水線結(jié)構(gòu)高吞吐率特性的同時(shí),大幅度減少DNN加速器的計(jì)算延時(shí)。

與使用傳統(tǒng)流水線結(jié)構(gòu)的加速器類似,該結(jié)構(gòu)會(huì)在FPGA上例化DNN中需要使用參數(shù)的主要網(wǎng)絡(luò)層(如卷積層、全連接層),每一主要網(wǎng)絡(luò)層會(huì)對(duì)應(yīng)加速器的一級(jí)流水;而不同的地方是此方案讓各層重疊,從而大幅度降低輸出需要等待的時(shí)間。

一個(gè)使用傳統(tǒng)流水結(jié)構(gòu)的加速器對(duì)一個(gè)9層的DNN作推理運(yùn)算需要等待457.24ms才能獲得結(jié)果,而在使用本文提出的結(jié)構(gòu)后,運(yùn)行同樣的網(wǎng)絡(luò)推理僅需等待59.04ms(圖3右),延時(shí)下降幅度達(dá)7.7倍。

圖 3傳統(tǒng)流水線結(jié)構(gòu)(左)及本文提出的細(xì)粒度流水結(jié)構(gòu)(右)

3)高性能RTL IP是構(gòu)建DNN加速器的最基本模塊。通過(guò)分解這些DNN網(wǎng)絡(luò)層,核心功能可以被映射到對(duì)應(yīng)所需的RTL IP上,并通過(guò)這些IP搭建加速器(圖4左)。

由于這些IP是高度可配置的,DNNBuilder可通過(guò)生成優(yōu)化策略去合理配置這些IP,以滿足不同網(wǎng)絡(luò)層對(duì)硬件資源和運(yùn)行性能的要求。

圖4右展示了DNNBuilder使用的卷積IP。它的輸入和輸出數(shù)據(jù)處理并行度均可被配置(分別對(duì)應(yīng)CPF和KPF)。此外IP中數(shù)據(jù)通路的位寬都是靈活的可變的(如輸入輸出位寬,bias和weight的位寬等),這樣DNNBuilder就可以精確控制每一個(gè)IP相應(yīng)的資源消耗及可獲取的性能。

圖4

自動(dòng)化:確保最優(yōu)資源分配

DNNBuilder可對(duì)FPGA的計(jì)算及存儲(chǔ)資源作分配并生成優(yōu)化策略,為RTL IP的參數(shù)配置提供依據(jù)。

在計(jì)算資源分配方面,作者在文中提及了資源分配的理論基礎(chǔ)(圖5左公式):即在使用流水線結(jié)構(gòu)的加速器中,只有每一級(jí)流水的延時(shí)相當(dāng)時(shí),加速器才能獲得最大吞吐率。

根據(jù)算法理論,作者設(shè)計(jì)了基于FPGA的DNN推理加速器的資源分配算法(見(jiàn)原文Algorithm 1)。

此外,本文還討論了FPGA外部存儲(chǔ)器訪存帶寬的分配問(wèn)題。作者使用Roofline模型(圖5右)闡述了可通過(guò)改變CTC指數(shù) (Computation to communication Ratio) 增加數(shù)據(jù)重用的機(jī)會(huì),從而減少帶寬資源消耗。CTC指數(shù)的增減可通過(guò)調(diào)整列緩存方案中slices多寡實(shí)現(xiàn)。根據(jù)此思路,作者在原文Algorithm2中詳細(xì)描述了帶寬資源分配方案。

終極殺器:DNNBuilder

為評(píng)估自動(dòng)生成加速器的性能,作者選擇了KU115(中端FPGA)和ZC706(嵌入式FPGA)這兩款設(shè)備作為目標(biāo)FPGA,讓DNNBuilder分別對(duì)應(yīng)云端和終端計(jì)算場(chǎng)景生成DNN推理加速器。

首先,作者與最近使用同款ZC706 FPGA的設(shè)計(jì)作比較(表1)。DNNBuilder生成的設(shè)計(jì)獲得最高的吞吐率(GOPS)和最優(yōu)秀的功率效率(GOPS/W)。

表1 DNN推理加速器性能對(duì)比(終端FPGA設(shè)備)

隨后,作者選擇了與其他運(yùn)行在云端FPGA的加速器作對(duì)比(表2)。在使用Xilinx的一款中端FPGA KU115,DNNBuilder所生成設(shè)計(jì)能獲得超過(guò)2TOPS(16比特量化)和4TOPS(8比特量化)吞吐率,超越其他設(shè)計(jì)。在功率效率方面,DNNBuilder也領(lǐng)先其他對(duì)手。

表2 DNN推理加速器性能對(duì)比(云端FPGA設(shè)備)

本文作者還以AlexNet作為基準(zhǔn)測(cè)試,對(duì)比了基于GPU和FPGA的DNN推理加速器(表3)。此對(duì)比同樣分成兩組,分別使用云端(TitanX GPU vs. KU115 FPGA)與終端設(shè)別 (TX2 GPU vs. ZC706 FPGA)。DNNbuilder所生成的基于FPGA的加速器在效率方面超過(guò)了基于GPU的設(shè)計(jì)。

表3 GPU與FPGA的DNN推理性能對(duì)比

結(jié)論

本文作者提出了DNNBuilder,它是一種基于FPGA的高性能DNN加速器自動(dòng)生成方案。作者通過(guò)三個(gè)硬件設(shè)計(jì)創(chuàng)新(列緩存方案、細(xì)粒度流水線結(jié)構(gòu)和高性能RTL IP)和自動(dòng)化資源分配方案,確保生成的加速器擁有現(xiàn)時(shí)最先進(jìn)的性能和效率。實(shí)驗(yàn)表明,DNNBuilder生成的加速器在運(yùn)行VGG-16時(shí)吞吐率可達(dá)4022 GOPS,效率達(dá)180.2 GOPS/W,超越了同類加速器。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1643

    文章

    21983

    瀏覽量

    614636
  • 寄存器
    +關(guān)注

    關(guān)注

    31

    文章

    5425

    瀏覽量

    123542
  • 加速器
    +關(guān)注

    關(guān)注

    2

    文章

    824

    瀏覽量

    38953

原文標(biāo)題:自動(dòng)編程DNN加速器!只需3步,云端終端通用

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    汽車發(fā)動(dòng)機(jī)升級(jí)產(chǎn)品,一種電子加速器是否真實(shí)?

    發(fā)動(dòng)機(jī)點(diǎn)火線圈工作,有幾個(gè)點(diǎn)火線圈就有幾個(gè)一種電子加速器一種電子加速器巧妙運(yùn)用電磁螺線管的高能電粒子,成功的培育出優(yōu)質(zhì)電,展現(xiàn)了磁,電的未知功能。特別是汽車在年檢中未達(dá)到汽車污染物排
    發(fā)表于 10-09 20:48

    汽車發(fā)動(dòng)機(jī)升級(jí)產(chǎn)品,一種電子加速器的總體功能。

    汽車發(fā)動(dòng)機(jī)升級(jí)產(chǎn)品,一種電子加速器的總體功能就是以本身的磁,電控制本身的電的運(yùn)動(dòng)規(guī)律的裝置,電的輻射范圍例如臺(tái)風(fēng)樣旋轉(zhuǎn)形成螺旋狀,從而產(chǎn)生強(qiáng)大的電吸拉力,來(lái)感應(yīng)其它裝置產(chǎn)生很好的效果為汽車發(fā)動(dòng)機(jī)
    發(fā)表于 10-21 07:13

    汽車發(fā)動(dòng)機(jī)升級(jí)產(chǎn)品,一種電子加速器問(wèn)專家?

    尊敬的汽車專家,我想問(wèn)汽車發(fā)動(dòng)機(jī)升級(jí)產(chǎn)品,一種電子加速器的特殊表現(xiàn),例如,一種電子加速器安裝在摩托車發(fā)動(dòng)機(jī)上,我經(jīng)過(guò)反復(fù)的實(shí)驗(yàn)證明,旦加油
    發(fā)表于 12-11 08:45

    汽車發(fā)動(dòng)機(jī)升級(jí)產(chǎn)品,一種電子加速器與汽車點(diǎn)火增強(qiáng)位置不同。

    不改變?cè)娏鞔笮?,只改變?cè)娏鞯倪\(yùn)動(dòng)模式,來(lái)提高汽車發(fā)動(dòng)機(jī)點(diǎn)火系統(tǒng)的性能。全網(wǎng)搜索:汽車發(fā)動(dòng)機(jī)升級(jí)產(chǎn)品,一種電子加速器。
    發(fā)表于 10-07 08:26

    為什么汽車發(fā)動(dòng)機(jī)升級(jí)產(chǎn)品,一種電子加速器能激發(fā)電的性能

    `請(qǐng)大師來(lái)解釋下,我認(rèn)為在同電源中,這邊一種電子加速器產(chǎn)生了電的性能提升,那么在相通的同
    發(fā)表于 09-12 22:20

    機(jī)器學(xué)習(xí)實(shí)戰(zhàn):GNN加速器FPGA解決方案

    的場(chǎng)景。如上所述種種設(shè)計(jì)挑戰(zhàn)的存在,使得業(yè)界急需一種可以支持高度并發(fā)實(shí)時(shí)計(jì)算、巨大內(nèi)存容量和帶寬、以及在數(shù)據(jù)中心范圍可擴(kuò)展的GNN加速解決方案。5. GNN加速器
    發(fā)表于 10-20 09:48

    核動(dòng)力發(fā)動(dòng)機(jī)與一種電子加速器

    天然鈾礦石粉有1%的鈾235,汽車發(fā)動(dòng)機(jī)燃燒將有強(qiáng)動(dòng)力表現(xiàn),鈾是金屬,也有導(dǎo)電性,可以與鐵作用生成金屬間化合物,鈾235原子,電子活動(dòng)力比較強(qiáng),能量反應(yīng)強(qiáng)大,具有a放射性電子流,在一種電子加速器的加持下
    發(fā)表于 04-25 18:32

    一種基于FPGA的圖神經(jīng)網(wǎng)絡(luò)加速器解決方案

    Achronix Speedster7t AC7t1500 FPGA器件提供的具有競(jìng)爭(zhēng)性的優(yōu)勢(shì),創(chuàng)建了一種高度可擴(kuò)展的、能夠提供卓越性能的GNN加速解決
    發(fā)表于 09-25 17:20

    一種新穎的自動(dòng)化攻擊圖生成方法_武健

    一種新穎的自動(dòng)化攻擊圖生成方法_武健
    發(fā)表于 03-19 11:45 ?0次下載

    UIUC推出最新DNN/FPGA協(xié)同方案 助力物聯(lián)網(wǎng)終端設(shè)備AI應(yīng)用

    」網(wǎng)絡(luò)搜索引擎 +「Auto-HLS」加速器生成技術(shù),自動(dòng)生成適用于終端設(shè)備的 DNN 模型及 FPGA
    發(fā)表于 06-10 14:39 ?1390次閱讀
    UIUC推出最新<b class='flag-5'>DNN</b>/<b class='flag-5'>FPGA</b>協(xié)同<b class='flag-5'>方案</b> 助力物聯(lián)網(wǎng)終端設(shè)備AI應(yīng)用

    電子學(xué)報(bào)第七期《一種可配置的CNN協(xié)加速器FPGA實(shí)現(xiàn)方法》

    電子學(xué)報(bào)第七期《一種可配置的CNN協(xié)加速器FPGA實(shí)現(xiàn)方法》
    發(fā)表于 11-18 16:31 ?15次下載

    Rapanda流加速器-實(shí)時(shí)流式FPGA加速器解決方案

    電子發(fā)燒友網(wǎng)站提供《Rapanda流加速器-實(shí)時(shí)流式FPGA加速器解決方案.pdf》資料免費(fèi)下載
    發(fā)表于 09-13 10:17 ?0次下載
    Rapanda流<b class='flag-5'>加速器</b>-實(shí)時(shí)流式<b class='flag-5'>FPGA</b><b class='flag-5'>加速器</b>解決<b class='flag-5'>方案</b>

    使用賽靈思Alveo加速器加速DNN

    電子發(fā)燒友網(wǎng)站提供《使用賽靈思Alveo加速器加速DNN.pdf》資料免費(fèi)下載
    發(fā)表于 09-18 09:27 ?1次下載
    使用賽靈思Alveo<b class='flag-5'>加速器</b>卡<b class='flag-5'>加速</b><b class='flag-5'>DNN</b>

    AI芯片設(shè)計(jì)DNN加速器buffer管理策略

    如前所述,數(shù)據(jù)緩存是創(chuàng)建高效DNN加速器的關(guān)鍵組件之。因此,除了選擇適當(dāng)?shù)臄?shù)據(jù)流(控制數(shù)據(jù)緩存的位置和時(shí)間)外,DNN加速器還需要
    的頭像 發(fā)表于 10-17 17:23 ?1772次閱讀
    AI芯片設(shè)計(jì)<b class='flag-5'>DNN</b><b class='flag-5'>加速器</b>buffer管理策略

    Hitek Systems開(kāi)發(fā)基于PCIe的高性能加速器以滿足行業(yè)需求

    Hitek Systems 使用開(kāi)放式 FPGA 堆棧 (OFS) 和 Agilex 7 FPGA,以開(kāi)發(fā)基于最新 PCIe 的高性能加速器 (HiPrAcc),旨在滿足網(wǎng)絡(luò)、計(jì)算和高
    的頭像 發(fā)表于 03-22 14:02 ?949次閱讀
    Hitek Systems開(kāi)發(fā)基于PCIe的<b class='flag-5'>高性能</b><b class='flag-5'>加速器</b>以滿足行業(yè)需求
    主站蜘蛛池模板: www.男人的天堂 | 深夜动态福利gif动态进 | 国产小视频免费观看 | 国产小视频在线观看www | 99在线国产视频 | 美女扒开尿口给男人看的让 | 真实女人寂寞偷人视频 | 天天躁狠狠躁夜夜躁 | 日本一区二区三区在线网 | 日韩在线免费看网站 | 免费国产一区 | 久久青草国产精品一区 | 伊人网址 | 日韩草逼| 人人精品久久 | 酒色1314| 欧美成人精品一区二区 | 一级毛片免费不卡直观看 | 国产经典三级 | 欧美三级第一页 | 国产视频二区 | china3p单男精品自拍 | 亚洲精品第三页 | 日本三级a| 免费观看在线aa | 国产免费小视频 | 天天天天天操 | 成年色黄大色黄大片 视频 成年视频xxxxx免费播放软件 | 福利视频网站 | 午夜视频在线观看免费视频 | 免费观看一级特黄三大片视频 | 国产亚洲一区二区三区在线 | 能直接看黄的网站 | 国产日本特黄特色大片免费视频 | 日本欧美一区二区三区免费不卡 | 国产叼嘿免费视频网站 | 午夜在线播放 | 正在播放国产女免费 | 激情亚洲色图 | 黄视频网站免费观看 | 三级毛片在线免费观看 |