在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于FPGA的GNN加速器頂層架構(gòu)

65eE_Broadcom_C ? 來(lái)源:Achronix ? 作者:Achronix ? 2021-08-27 09:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

接上一篇......

GNN加速器頂層架構(gòu)

此GNN加速器是為GraphSAGE算法設(shè)計(jì)的,但是它的設(shè)計(jì)也可以應(yīng)用于其他類似的GNN算法加速。其頂層架構(gòu)如下圖所示。

該架構(gòu)由以下模塊組成:

圖中的GNN內(nèi)核是算法實(shí)現(xiàn)的核心部分(詳情如下)。

RoCE-Lite是RDMA協(xié)議的輕量級(jí)版本,用于通過(guò)高速以太網(wǎng)進(jìn)行遠(yuǎn)程存儲(chǔ)訪問,以支持海量節(jié)點(diǎn)的圖計(jì)算。

400GE以太網(wǎng)控制器用于承載RoCE-Lite協(xié)議。

GDDR6存儲(chǔ)器用于存儲(chǔ)GNN處理過(guò)程中所需的高速訪問數(shù)據(jù)(DDR4作為備用大容量存儲(chǔ)器)。該存儲(chǔ)器用于存儲(chǔ)訪問頻率相對(duì)較低的數(shù)據(jù),例如待預(yù)處理的圖形數(shù)據(jù)。

PCIeGen5 ×16 接口提供高速主機(jī)接口,用于與服務(wù)器軟件進(jìn)行數(shù)據(jù)交互。

上述所有模塊均通過(guò)具有高帶寬的NoC實(shí)現(xiàn)互連。

GNN內(nèi)核微架構(gòu)

在開始討論GNN內(nèi)核的微架構(gòu)之前,有必要先回顧一下GraphSAGE算法。其內(nèi)層循環(huán)的聚合和合并(包括卷積)占據(jù)了該算法的大部分計(jì)算和存儲(chǔ)訪問。通過(guò)研究,我們得出這兩個(gè)步驟的特點(diǎn),具體如下。

表2:GNN算法中聚合和合并操作的對(duì)比(來(lái)源:https://arxiv.org/abs/1908.10834)

步驟 聚合操作 合并操作
存儲(chǔ)訪問方式 間接訪問,不規(guī)則 直接訪問,規(guī)則
數(shù)據(jù)重用
計(jì)算模式 動(dòng)態(tài),不規(guī)則 靜態(tài),規(guī)則
計(jì)算量
性能瓶頸 存儲(chǔ) 計(jì)算

可以看出,聚合操作和合并操作在計(jì)算和存儲(chǔ)訪問模式上有著完全不同的需求。聚合操作涉及相鄰節(jié)點(diǎn)的采樣。然而,圖形是一種非歐幾里得數(shù)據(jù)類型——它的大小和維度是不確定且無(wú)序,矩陣稀疏,節(jié)點(diǎn)位置隨機(jī)。因此,存儲(chǔ)訪問是不規(guī)則的,并且難以重復(fù)利用數(shù)據(jù)。

在合并操作中,輸入數(shù)據(jù)是聚合結(jié)果(節(jié)點(diǎn)的低維表示)和權(quán)重矩陣。它的大小和維度是固定的,具有線性存儲(chǔ)位置。因此對(duì)存儲(chǔ)訪問沒有挑戰(zhàn),但是矩陣的計(jì)算量非常大。 基于上述分析,我們決定在GNN內(nèi)核加速器設(shè)計(jì)中選擇使用兩種不同的硬件結(jié)構(gòu)來(lái)分別處理聚合和合并操作(如下圖示):

聚合器——通過(guò)單指令多數(shù)據(jù)(SIMD)處理器陣列,對(duì)圖形相鄰節(jié)點(diǎn)進(jìn)行采樣和聚合。單指令可以預(yù)定義為mean()平均值計(jì)算,或其他適用的聚合函數(shù);多數(shù)據(jù)是指單次mean()均值計(jì)算中需要多個(gè)相鄰節(jié)點(diǎn)的特征數(shù)據(jù)作為輸入,這些數(shù)據(jù)來(lái)自子圖采樣器。SIMD處理器陣列通過(guò)調(diào)度器Agg Scheduler進(jìn)行負(fù)載平衡。子圖采樣器通過(guò)NoC從GDDR6或DDR4讀回的鄰接矩陣和節(jié)點(diǎn)特征數(shù)據(jù)h0v分別緩存在鄰接列表緩沖區(qū)(Adjacent ListBuffer)和節(jié)點(diǎn)特征緩沖區(qū)(Node Feature Buffer)。聚合的結(jié)果hkN(v)存儲(chǔ)在聚合緩沖區(qū)(Aggregation Buffer)中。

合并器——通過(guò)脈動(dòng)矩陣PE對(duì)聚合結(jié)果進(jìn)行卷積運(yùn)算。卷積核是Wk權(quán)重矩陣。卷積結(jié)果由ReLU激活函數(shù)進(jìn)行非線性處理,同時(shí)也存儲(chǔ)在PartialSum Buffer中,以用于下一輪迭代。

合并結(jié)果經(jīng)過(guò)L2BN標(biāo)準(zhǔn)化處理后,即為最終的節(jié)點(diǎn)表示hkv。在一個(gè)典型的節(jié)點(diǎn)分類預(yù)測(cè)應(yīng)用中,節(jié)點(diǎn)表示hkv可以通過(guò)一個(gè)全連接層(FC)來(lái)獲取節(jié)點(diǎn)的分類標(biāo)簽。這個(gè)過(guò)程是傳統(tǒng)的機(jī)器學(xué)習(xí)處理方法之一,在GraphSAGE文獻(xiàn)資料中沒有體現(xiàn),這個(gè)功能也沒有包含在這個(gè)架構(gòu)中。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1645

    文章

    22034

    瀏覽量

    617848
  • 加速器
    +關(guān)注

    關(guān)注

    2

    文章

    827

    瀏覽量

    39085
  • GNN
    GNN
    +關(guān)注

    關(guān)注

    1

    文章

    31

    瀏覽量

    6551

原文標(biāo)題:白皮書:一種基于FPGA的圖神經(jīng)網(wǎng)絡(luò)加速器解決方案(WP024)(第二部分)

文章出處:【微信號(hào):Broadcom_China,微信公眾號(hào):博通Broadcom】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    數(shù)據(jù)中心加速器就看GRVI Phalanx FPGA加速器

    數(shù)據(jù)中心采用FPGA加速器已經(jīng)成為主流,像MS的Catapult,Amazon基于Xilinx FPGA的AWS F1,Intel的Altera,Baidu公司等
    的頭像 發(fā)表于 10-16 11:49 ?9138次閱讀
    數(shù)據(jù)中心<b class='flag-5'>加速器</b>就看GRVI Phalanx <b class='flag-5'>FPGA</b><b class='flag-5'>加速器</b>

    機(jī)器學(xué)習(xí)實(shí)戰(zhàn):GNN(圖神經(jīng)網(wǎng)絡(luò))加速器FPGA解決方案

    GNN架構(gòu)在宏觀層面有著很多與傳統(tǒng)CNN類似的地方,比如卷積層、Polling、激活函數(shù)、機(jī)器學(xué)習(xí)處理(MLP)和FC層等等模塊,都會(huì)在GNN中得以應(yīng)用。
    發(fā)表于 10-19 17:05 ?2987次閱讀
    機(jī)器學(xué)習(xí)實(shí)戰(zhàn):<b class='flag-5'>GNN</b>(圖神經(jīng)網(wǎng)絡(luò))<b class='flag-5'>加速器</b>的<b class='flag-5'>FPGA</b>解決方案

    #硬聲創(chuàng)作季 電子制作:磁性加速器

    加速器DIY
    Mr_haohao
    發(fā)布于 :2022年10月19日 00:19:38

    機(jī)器學(xué)習(xí)實(shí)戰(zhàn):GNN加速器FPGA解決方案

    與Achronix的Speedster7t1500 FPGA解決方案5.1 GNN加速器頂層架構(gòu)GNN
    發(fā)表于 10-20 09:48

    GNN(圖神經(jīng)網(wǎng)絡(luò))硬件加速FPGA實(shí)戰(zhàn)解決方案

    5.1GNN加速器頂層架構(gòu)GNN加速器針對(duì)GraphSAGE進(jìn)行設(shè)計(jì),但其
    發(fā)表于 07-07 08:00

    一種基于FPGA的圖神經(jīng)網(wǎng)絡(luò)加速器解決方案

    在硬件層面進(jìn)行升級(jí)和重新配置。復(fù)雜的設(shè)計(jì)豐富的硬IP減少開發(fā)時(shí)間、降低復(fù)雜性,NoC簡(jiǎn)化模塊之間的互連并改善時(shí)序GNN加速器頂層架構(gòu)GNN
    發(fā)表于 09-25 17:20

    【書籍評(píng)測(cè)活動(dòng)NO.18】 AI加速器架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)

    經(jīng)驗(yàn)總結(jié)圖解NPU算法、架構(gòu)與實(shí)現(xiàn),從零設(shè)計(jì)產(chǎn)品級(jí)加速器當(dāng)前,ChatGPT和自動(dòng)駕駛等技術(shù)正在為人類社會(huì)帶來(lái)巨大的生產(chǎn)力變革,其中基于深度學(xué)習(xí)和增強(qiáng)學(xué)習(xí)的AI計(jì)算扮演著至關(guān)重要的角色。新的計(jì)算范式需要
    發(fā)表于 07-28 10:50

    《 AI加速器架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)》+第2章的閱讀概括

    首先感謝電子發(fā)燒友論壇提供的書籍和閱讀評(píng)測(cè)的機(jī)會(huì)。 拿到書,先看一下封面介紹。這本書的中文名是《AI加速器架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)》,英文名是Accelerator Based on CNN Design
    發(fā)表于 09-17 16:39

    高級(jí)語(yǔ)言(HLL)標(biāo)準(zhǔn)擴(kuò)展大大簡(jiǎn)化基于FPGA加速器的應(yīng)用程序的開發(fā)

    擴(kuò)展和利用FPGA實(shí)現(xiàn)加速的應(yīng)用等內(nèi)容。Convey公司制造了一整套的基于FPGA的硬件加速器板卡,支持PCIe計(jì)算接口和服務(wù)系統(tǒng)包裹Wo
    發(fā)表于 02-08 12:34 ?522次閱讀
    高級(jí)語(yǔ)言(HLL)標(biāo)準(zhǔn)擴(kuò)展大大簡(jiǎn)化基于<b class='flag-5'>FPGA</b><b class='flag-5'>加速器</b>的應(yīng)用程序的開發(fā)

    優(yōu)化基于FPGA的深度卷積神經(jīng)網(wǎng)絡(luò)的加速器設(shè)計(jì)

    CNN已經(jīng)廣泛用于圖像識(shí)別,因?yàn)樗苣7律镆曈X神經(jīng)的行為獲得很高識(shí)別準(zhǔn)確率。最近,基于深度學(xué)習(xí)算法的現(xiàn)代應(yīng)用高速增長(zhǎng)進(jìn)一步改善了研究和實(shí)現(xiàn)。特別地,多種基于FPGA平臺(tái)的深度CNN加速器被提出
    發(fā)表于 11-17 13:31 ?8338次閱讀

    基于Xilinx FPGA的Memcached硬件加速器的介紹

    本教程討論基于Xilinx FPGA的Memcached硬件加速器的技術(shù)細(xì)節(jié),該硬件加速器可為10G以太網(wǎng)端口提供線速M(fèi)emcached服務(wù)。
    的頭像 發(fā)表于 11-27 06:41 ?3988次閱讀

    基于FPGA的SIMD卷積神經(jīng)網(wǎng)絡(luò)加速器

    一種基于FPGA的SIM卷積神經(jīng)網(wǎng)絡(luò)加速器架構(gòu)。以YOOV2目標(biāo)檢測(cè)算法為例,介紹了將卷積神經(jīng)網(wǎng)絡(luò)模型映射到FPGA上的完整流程;對(duì)加速器
    發(fā)表于 05-28 14:00 ?24次下載

    基于FPGA的深度學(xué)習(xí)CNN加速器設(shè)計(jì)方案

    因?yàn)镃NN的特有計(jì)算模式,通用處理對(duì)于CNN實(shí)現(xiàn)效率并不高,不能滿足性能要求。 因此,近來(lái)已經(jīng)提出了基于FPGA,GPU甚至ASIC設(shè)計(jì)的各種加速器來(lái)提高CNN設(shè)計(jì)的性能。
    發(fā)表于 06-14 16:03 ?2794次閱讀
    基于<b class='flag-5'>FPGA</b>的深度學(xué)習(xí)CNN<b class='flag-5'>加速器</b>設(shè)計(jì)方案

    Rapanda流加速器-實(shí)時(shí)流式FPGA加速器解決方案

    電子發(fā)燒友網(wǎng)站提供《Rapanda流加速器-實(shí)時(shí)流式FPGA加速器解決方案.pdf》資料免費(fèi)下載
    發(fā)表于 09-13 10:17 ?0次下載
    Rapanda流<b class='flag-5'>加速器</b>-實(shí)時(shí)流式<b class='flag-5'>FPGA</b><b class='flag-5'>加速器</b>解決方案

    粒子加速器加速原理是啥呢?

    粒子加速器加速原理是啥呢? 粒子加速器是一種重要的實(shí)驗(yàn)設(shè)備,用于研究粒子物理學(xué)、核物理學(xué)等領(lǐng)域。其主要原理是通過(guò)電場(chǎng)和磁場(chǎng)的作用,對(duì)帶電粒子進(jìn)行加速,在高速運(yùn)動(dòng)過(guò)程中使其獲得較大的動(dòng)
    的頭像 發(fā)表于 12-18 13:52 ?3089次閱讀
    主站蜘蛛池模板: 人人澡 人人澡 人人看 | 婷婷久久综合 | 亚洲香蕉电影 | 国产精品自在线天天看片 | 欧洲亚洲一区 | 欧美色淫网站免费观看 | 激情六月丁香婷婷 | 国产在线h视频 | 亚洲第一成人在线 | 国产农村乱色xxxx | 日本在线观看高清不卡免v 日本在线观看永久免费网站 | 一区二区中文字幕在线观看 | 亚洲国产欧美视频 | 精品乩伦视频 | 91在线播放免费不卡无毒 | 色噜噜噜噜噜在线观看网站 | 色爱区综合激情五月综合激情 | 成人三级在线播放线观看 | 欧美天天射 | 成人观看天堂在线影片 | 国产精品高清一区二区三区 | 四虎免费大片aⅴ入口 | 五月婷婷爱 | 黄网站色视频免费观看 | 亚洲综合精品香蕉久久网97 | 黄色一级毛片网站 | 黄色网址 在线播放 | 永久黄网站色视频免费观看99 | 久久青草精品一区二区三区 | 777丰满影院| 日本最顶级丰满的aⅴ艳星 日本最好的免费影院 | h小视频在线观看网 | 一级毛片女人喷潮 | 在线视频 一区二区 | 久久福利精品 | 亚洲国产午夜看片 | 欧美成人午夜视频 | 欧美成人免费 | 色噜噜狠狠成人中文小说 | 成年人午夜影院 | 国产伦精品一区二区三区 |