在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

riscv的fpga實現案例 基于RISC-V加速器實現現場可編程門陣列 CNN異構的控制方案

FPGA設計論壇 ? 來源:吳海龍, 李金東, 陳翔, ? 作者:吳海龍, 李金東, ? 2023-08-21 10:30 ? 次閱讀

作者:吳海龍, 李金東, 陳翔,電子與信息工程學院,中山大學,中國 (在此特別鳴謝!)

摘要:現場可編程門陣列(FPGA)具有低功耗、高性能和靈活性的特點。FPGA神經網絡加速的研究正在興起,但大多數研究都基于國外的FPGA器件。為了改善國內FPGA的現狀,提出了一種新型的卷積神經網絡加速器,用于配備輕量級RISC-V軟核的國產FPGA(紫光同創PG2L100H)。所提出的加速器的峰值性能達到153.6 GOP/s,僅占用14K LUT(查找表)、32個DRM(專用RAM模塊)和208個APM(算術處理模塊)。所提出的加速器對于大多數邊緣AI應用和嵌入式系統具有足夠的計算能力,為國內FPGA提供了可能的AI推理加速方案。

背景

卷積神經網絡在機器視覺任務中越來越流行,包括圖像分類和目標檢測。如何在有限的條件下充分發揮FPGA的最大性能是各研究者的主要方向。如今,大多數CCN使用外國FPGA器件。由于國內FPGA起步較晚,其相關開發工具和設備落后于其他外國制造商。因此,在國內FPGA上構建高性能CNN并替換現有成熟的異構方案是一項具有挑戰性的任務。 Zhang[1]于2015年首次對卷積網絡推理中的數據共享和并行性進行了深入分析和探索。Guo[2]提出的加速器在214MHz下達到了84.3 GOP/s的峰值性能。2016年,Qiu[3]更深入地探索了使用行緩沖器的加速器。

本文提出了一種更高效、更通用的卷積加速器。提出的加速器峰值性能達到153.6GOP/s,僅占用14K LUT、32個DRM和208個APM。本文的章節安排如下,第2節介紹了我們提出的加速器的詳細設計以及基于RISC-V的加速器實現的控制調度方案。第3節給出了實驗結果。

系統設計

整個RISC-V片上系統設計如圖1所示。該系統主要由RISC-V軟核CPU、指令/數據存儲器、總線橋、外圍設備、DMA(直接存儲器訪問)和卷積加速器組成。

ed96918c-3fc9-11ee-ac96-dac502259ad0.png


Fig. 1. 片上RISC-V系統設計圖

我們的工作主要在三個方面。首先,我們使用軟核CPU作為片上系統的主控,控制外設,DMA,CNN加速器來實現數據調度和操作。其次,1D(一維)加速器被設計用于改變緩沖機制。第三,為紫光同創的FPGA設備設計了一個DMA IP,用于卷積加速的應用。

A、RISC-V 軟核CPU 架構

軟核。使用RISC-V軟核VexRiscv代替Ibex[4]構建RISC-V的片上系統和面向軟件的方法可以使VexRiscv具有高度的靈活性和可擴展性。

接口I2C和SPI等外圍設備通過APB3總線連接到RISC-V軟核。DMA和加速器通過PMB總線連接到RISC-V軟核。

指令與數據存儲。程序被交叉編譯以獲得一個特定的文件,該文件由JTAG燒錄到片上指令/數據存儲器中。

B、CNN 加速器結構

輸入緩存。使用乒乓緩存來實現緩沖區,可以有效地提高吞吐量。

輸出緩存。權重緩存模塊由一系列分布式RAM和串行到并行單元組成。

卷積。圖2中的1D卷積模塊分為四組,其中包含四個1D卷曲單元。每個單元負責1D卷積的一個信道。

合并。積分模塊有四組加法器樹。每組加法器樹將每組卷積運算單元的結果相加,得到單向輸出結果。

累加。累加模塊中有四組FIFO和四個加法器。加速器一次只能接收四個通道的輸入特征圖數據。

量化。該量化模塊由乘法單元和移位單元組成。它通過比例變換將24位累加結果重新轉換為8位[5]。

激活。激活功能通過查找由一系列分布式RAM組成的表來實現。它存儲ReLu、Leaky ReLu和sigmoid函數的INT8函數表。

池化。確定當前卷積層是否與池化層級聯,然后決定是否使用池化模塊來完成池化操作。

輸出緩存。輸出緩沖器由FIFO而不是乒乓緩存實現。輸出高速緩存FIFO將結果存儲回片外存儲器,作為下一卷積層的輸入。

edbad7d6-3fc9-11ee-ac96-dac502259ad0.png


Fig. 2.CNN 加速器實現

C、DMA 結構

神經網絡不僅對計算能力有很高的要求,而且對內存也有很大的需求。中低端FPGA通常需要DDR SRAM(雙數據速率同步動態隨機存取存儲器)來承載整個神經網絡和所有中間運算結果的權重。紫光同創的FPGA的DDR3內存驅動器IP為用戶提供了簡化AXI4總線的內存訪問接口。 由于Simpled AXI和AXI之間的標準差異,需要新的DMA設計。DMA設計如下。讀和寫地址通道由RISC-V軟核直接控制。讀寫數據通道的FIFO用作卷積加速器和DDR3驅動器IP的緩沖器,以完成端口轉換。

D、實現細節

1、一維卷積單元陣列設計 神經網絡不僅對計算能力有很高的要求,而且對內存也有很大的需求。中低端FPGA通常需要DDR SRAM(雙數據速率同步動態隨機存取存儲器)來承載整個神經網絡和所有中間運算結果的權重。紫光同創的FPGA的DDR3內存驅動器IP為用戶提供了簡化AXI4總線的內存訪問接口。 由于Simpled AXI和AXI之間的標準差異,需要新的DMA設計。DMA設計如下。讀和寫地址通道由RISC-V軟核直接控制。讀寫數據通道的FIFO用作卷積加速器和DDR3驅動器IP的緩沖器,以完成端口轉換。

2、卷積加速器控制

本文提出了一種基于指令隊列的設計,以減少RISC-V軟核中DMA和加速器的響應延遲。RISC-V CPU可以連續發送多個存儲器讀寫請求指令和多個操作調度控制指令,而不用等待DMA和加速器的反饋。DMA和加速器從隊列中獲取指令,任務完成后直接從隊列中取出下一條指令,無需等待相應的CPU,從而實現低延遲調度。

eddebd36-3fc9-11ee-ac96-dac502259ad0.png


Fig. 3. 1X3 一維卷積原理圖

ee01c178-3fc9-11ee-ac96-dac502259ad0.png


Fig. 4. 一維卷積單元硬件實現

實現結果和備注

通過在PG2L100H和X7Z020上實現相同配置的CNN加速器,完成了CNN加速器的性能測試,驗證了國產FPGA CNN加速方案的可行性。加速器的資源消耗和性能如表I和表II所示。

ee0df268-3fc9-11ee-ac96-dac502259ad0.png

TABLE I 資源利用 PG2L100H和X7Z020的資源消耗相似。PG2L100H需要額外的邏輯資源來構建VexRiscv CPU,而X7Z020為AXI DMA IP使用更多的邏輯資源。就加速器性能而言,可從表II中看出。由于FPGA器件架構的差異,與X7Z020相比,加速器的卷積運算在PG2L100H上只能在200MHz下實現更好的收斂。RISC-V軟核只能在100MHz下實現定時收斂。

ee1ffbd4-3fc9-11ee-ac96-dac502259ad0.png

TABLE II 性能對比 我們提出了一種基于RISC-V的一維卷積運算的新設計。該加速器在國內FPGA上的實現和部署已經完成,其性能與具有相同規模硬件資源的國外FPGA相當。

本文論證了基于國產FPGA的CNN異構方案的可行性,該研究是國產FPGA應用生態中CNN加速領域的一次罕見嘗試。

作者:吳海龍, 李金東, 陳翔,電子與信息工程學院,中山大學,中國 (在此特別鳴謝!)

REFERENCES:

[1]Zhang. C, et al. "Optimizing FPGA-based Accelerator Design for Deep Convolutional Neural Networks. " the 2015 ACM/SIGDA International Symposium ACM, 2015.

[2]K. Guo et al., "Angel-Eye: A Complete Design Flow for Mapping CNN Onto Embedded FPGA," in IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, vol. 37, no. 1, pp. 35-47, Jan. 2018.

[3]Qiu.J, et al. "Going Deeper with Embedded FPGA Platform for Convolutional Neural Network." the 2016 ACM/SIGDA International Symposium ACM, 2016.

[4]E. Gholizadehazari, T. Ayhan and B. Ors, "An FPGA Implementation of a RISC-V Based SoC System for Image Processing Applications," 2021 29th Signal Processing and Communications Applications Conference (SIU), 2021, pp. 1-4.

[5]B. Jacob et al., "Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference," 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018, pp. 2704-2713.

[6]B. Bosi, G. Bois and Y. Savaria, "Reconfigurable pipelined 2-D convolvers for fast digital signal processing," in IEEE Transactions on Very Large Scale Integration (VLSI) Systems, vol. 7, no. 3, pp. 299-308, Sept. 1999.

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1643

    文章

    21974

    瀏覽量

    614347
  • 加速器
    +關注

    關注

    2

    文章

    824

    瀏覽量

    38939
  • 神經網絡
    +關注

    關注

    42

    文章

    4809

    瀏覽量

    102847
  • cnn
    cnn
    +關注

    關注

    3

    文章

    354

    瀏覽量

    22647
  • RISC-V
    +關注

    關注

    46

    文章

    2503

    瀏覽量

    48304
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    大象機器人攜手進迭時空推出 RISC-V 全棧開源六軸機械臂產品

    集成于同一硬件平臺。內置RISC-V AI核,接入ONNXRuntime加速框架,可快速部署Transformer、CNN等主流算法,實現視覺跟蹤、語音交互與自主決策的一體化應用。 低
    發表于 04-25 17:59

    RISC-V能否復制Linux 的成功?》

    ,創建實現自有加速器算法的自定義異構集群。RISC-V作為一種ISA,我們一開始是在處理內核中采用吸引人的通用構建塊,然后在此基礎上進行構
    發表于 11-26 20:20

    【「RISC-V體系結構編程與實踐」閱讀體驗】-- SBI及NEMU環境

    基于《RISC-V體系結構編程與實踐(第二版)》這本書籍,官方文檔及網上資料繼續我的RISC-V旅程。 接前面的篇章,今天來看看RISCV-V的SBI、BenOS和MySBI及NEMU
    發表于 11-26 09:37

    QCC74xM RISC-V 架構可編程連接模組

    QCC74xM 是高通公司推出的首款 RISC-V 架構可編程連接模組。以下是它的一些主要特點和相關信息: 性能與架構 RISC-V 架構優勢:RISC-V 是一種開源指令集架構,具
    發表于 11-25 11:19

    MCU與FPGA的區別和聯動

    控制器單元(MCU)和現場可編程門陣列FPGA)是兩種廣泛應用于電子設計領域的集成電路。它們各自具有獨特的特點和應用場景,同時也可以在某
    的頭像 發表于 11-01 13:51 ?1964次閱讀

    RISC-V,即將進入應用的爆發期

    計算機由控制整體的CPU(中央處理)和加速器兩部分構成。在AI計算中,功耗和效率是兩個關鍵因素。RISC-V架構通過其簡潔的設計和定制化的擴展,可以
    發表于 10-31 16:06

    國產RISC-V案例分享,基于全志T113-i異構多核平臺!

    。圖5 (2)案例測試參考產品資料,啟動RISC-V核心并加載工程鏡像。RISC-V核心啟動后將自動運行RISC-V程序,RS232 UART2串口終端將會打印如下類似信息,并可看到評估底板用戶
    發表于 10-29 09:47

    FPGA加速深度學習模型的案例

    FPGA現場可編程門陣列加速深度學習模型是當前硬件加速領域的一個熱門研究方向。以下是一些
    的頭像 發表于 10-25 09:22 ?1085次閱讀

    國產RISC-V基于全志T113-i異構多核平臺

    信息,并可看到評估底板用戶可編程指示燈每隔0.5s閃爍一次。 圖 6 uart_echo案例演示 (1)案例功能說明 實現RS485 UART1串口的回顯功能。RISC-V核心等待RS485
    發表于 10-10 22:08

    淺談國產異構雙核RISC-V+FPGA處理AG32VF407的優勢和應用場景

    關于國產異構雙核RISC-V+FPGA處理AG32VF407的具體優勢和應用場景淺談如下: 優勢 異構計算能力 : 異構雙核設計結合了
    發表于 08-31 08:32

    RISC-V Summit China 2024 | 青稞RISC-V+接口PHY,賦能RISC-V高效落地

    RISC-V+USB+Type-C PD Type-C接口特色MCU CH32X035,內置PDUSB接口,USB數據+PD功率傳輸“雙管齊下”。芯片內置多運放/比較、觸摸按鍵、PIOC可編程協議I/O
    發表于 08-30 17:37

    2024 RISC-V 中國峰會:華秋電子助力RISC-V生態!

    掌握RISC-V芯片的應用與開發,電子發燒友作為緊密合作伙伴,依托650萬+開發者用戶,全力構建包含RISC-V開發者社區、RISC-V技術商業生態圈及RISC-V創新
    發表于 08-26 16:46

    RISC-V在中國的發展機遇有哪些場景?

    RISC-V結合AI加速器,可以在AI領域提供高效的計算解決方案。 定制化需求:RISC-V允許添加專門的加速器或協處理
    發表于 07-29 17:14

    為什么要有RISC-V

    編程語言。③、它應該適應所有實現技術,包括現場可編程門陣列FPGA)、專用集成電路(ASIC
    發表于 07-27 15:05

    如何在FPGA實現狀態機

    FPGA現場可編程門陣列)中實現狀態機是一種常見的做法,用于控制復雜的數字系統行為。狀態機能
    的頭像 發表于 07-18 15:57 ?1101次閱讀
    主站蜘蛛池模板: 成年免费大片黄在线观看免费 | 伊人网站在线观看 | 久久久黄色大片 | 两性色午夜视频免费播放 | 91精品啪国产在线观看免费牛牛 | xxxx.欧美| 欧美成人 一区二区三区 | 国产精品一区在线观看你懂的 | 韩国理论片在线看2828dy | 亚洲一区二区三区不卡视频 | 欧美综合国产精品日韩一 | 欧美一区二区三区激情啪啪 | 国产精品亚洲一区二区三区在线播放 | 欧美色视频网站 | 亚洲成在线观看 | 成人免费看片视频色多多 | 看真人一一级毛片 | 最好看的2019中文字幕免费高清 | 婷婷丁香久久 | 黄色日本视频网站 | 日本一区二区三区不卡在线视频 | 国产三级精品播放 | www.黄色免费| 视频免费1区二区三区 | 日本丶国产丶欧美色综合 | 人人草97 | 六月婷婷综合 | 天堂资源在线bt种子 | 综合网在线 | 日韩黄色网址 | 高清视频一区二区三区 | 三a大片 | 免费啪视频观在线视频在线 | 老师别揉我胸啊嗯上课呢视频 | 狠狠色狠狠色综合日日32 | 丁香花五月婷婷 | 综合一个色 | 欧美1819| 免费观看黄色网址 | 亚洲成人在线网 | 亚洲一区二区三区免费观看 |