在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

Xilinx賽靈思官微 ? 來源:djl ? 作者:賽靈思Yao Fu、Eph ? 2019-07-30 08:59 ? 次閱讀

與其他 FPGA DSP 架構(gòu)相比,賽靈思的集成 DSP 架構(gòu)在 INT8 深度學(xué)習(xí)運算上能實現(xiàn) 1.75 倍的解決方案級性能。

概要

本白皮書探討將 INT8 運算用于實現(xiàn)在賽靈思 DSP48E2 片上、使用深度學(xué)習(xí)推斷和計算機視覺功能的嵌入式視覺應(yīng)用,以及這種方案與其他 FPGA 的對比。與占用相同資源數(shù)量的其他 FPGA 相比,賽靈思的 DSP 架構(gòu)對 INT8 乘法累加 (MACC) 運算能實現(xiàn) 1.75 倍的峰值解決方案級性能。由于嵌入式視覺應(yīng)用可以在不犧牲準(zhǔn)確性的情況下使用較低位精度,因此需要高效的 INT8 實現(xiàn)方案。

賽靈思的 DSP 架構(gòu)和庫針對 INT8 運算進行了精心優(yōu)化。本白皮書介紹如何使用賽靈思 16nm 和 20nm All Programmable 器件中的 DSP48E2 Slice,在共享相同內(nèi)核權(quán)重的同時處理兩個并行的 INT8 MACC 運算。本白皮書還闡述了要運用賽靈思這一獨特技術(shù),為何輸入的最小位寬為 24 位。此外本白皮書還詳細(xì)介紹了如何以 SIMD 模式使用 DSP48E2 Slice,供基本算術(shù)運算使用。另外還提供在深度學(xué)習(xí)領(lǐng)域或其他計算機視覺處理任務(wù)領(lǐng)域如何將這些功能用于嵌入式視覺的實例。

用于深度學(xué)習(xí)和計算機視覺的 INT8

嵌入式視覺是專業(yè)術(shù)語,指的是在嵌入式平臺上實現(xiàn)用于現(xiàn)實用途的計算機視覺算法。雖然計算機視覺算法近年來有明顯改進,要在降低功耗的條件下將這樣復(fù)雜且高計算強度的算法移植到嵌入式平臺上卻是一大挑戰(zhàn)。以更低功耗處理更多運算是一個亙古不變的需求,無論是對過濾、角點檢測等傳統(tǒng)計算機視覺算法還是對深度學(xué)習(xí)算法。

深度神經(jīng)網(wǎng)絡(luò)憑借人類級 AI 功能已推動眾多應(yīng)用不斷演進并重新對其定義。鑒于這類算法提供的超高精度,這些網(wǎng)絡(luò)是嵌入式設(shè)備中的主要工作負(fù)載。隨著更精確的深度學(xué)習(xí)模型被開發(fā)出來,它們的復(fù)雜性也帶來了高計算強度和高內(nèi)存帶寬方面的難題。能效要求正推動深度學(xué)習(xí)推斷新模式開發(fā)方面的創(chuàng)新,這些模式需要的計算強度和內(nèi)存帶寬較低,但絕不能以犧牲準(zhǔn)確性和吞吐量為代價。降低這一開銷將最終提升能效,降低所需的總功耗。

除了節(jié)省計算過程中的耗電,較低位寬的計算還能降低內(nèi)存帶寬所需的功耗,因為在內(nèi)存事務(wù)數(shù)量不變的情況下傳輸?shù)奈粩?shù)減少了。

研究顯示要保持同樣的準(zhǔn)確性[ 參考資料 1][ 參考資料 2][ 參考資料 3],深度學(xué)習(xí)推斷中無需浮點計算,而且圖像分類等許多應(yīng)用只需要 INT8 或更低定點計算精度來保持可接受的推斷準(zhǔn)確性[ 參考資料 2][ 參考資料 3]。表 1 列出了精調(diào)網(wǎng)絡(luò)以及卷積層和完全相連層的動態(tài)定點參數(shù)及輸出。括號內(nèi)的數(shù)字代表未精調(diào)的準(zhǔn)確性。

表 1 :帶定點精度的 CNN 模型

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

對用于深度學(xué)習(xí)的 INT8 運算的優(yōu)化也直接地適用于大量傳統(tǒng)計算機視覺功能。這些算法一般工作在 8 位到 16 位整數(shù)表達(dá)式。OpenVX[ 參考資料 4]是一種近期提議的計算機視覺標(biāo)準(zhǔn),規(guī)定了每個通道 INT8 表達(dá)式的用法。大多數(shù)計算機視覺應(yīng)用需要某些程度的過濾,而過濾能夠分解為一套點積運算。賽靈思 DSP48E2 Slice 上的 SIMD 運算模式為實現(xiàn)視覺算法涉及的運算提供額外選擇。

賽靈思 DSP Slice 片上的 INT8 運算

UltraScale 和 UltraScale+ FPGA、Zynq UltraScale+ MPSoC(可編程邏輯)中的賽靈思 DSP48E2 Slice 設(shè)計用于完成一次乘法和加法運算,最大可在一個時鐘周期內(nèi)高效地實現(xiàn) 18x27 位相乘和 48 位累加,如圖 1 所示。除了采用回送或鏈接多個 DSP48E2 Slice,乘法累加 (MACC) 也能使用賽靈思器件高效完成。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

圖 1 :使用 MACC 模式的 DSP48E2 Slice

INT8 計算本身就能發(fā)揮寬 27 位帶寬的優(yōu)勢。在傳統(tǒng)應(yīng)用中,預(yù)加法器一般用于高效實現(xiàn)(A+B)xC 類型的運算,但這類型運算不常見于深度學(xué)習(xí)和計算機視覺應(yīng)用中。將 (A+B)xC 的結(jié)果分解為 AxC 和 BxC,然后在獨立的數(shù)據(jù)流中進行累加,使之適用于典型深度學(xué)習(xí)和計算機視覺計算的要求。

對 INT8 MACC 運算來說,擁有 18x27 位乘法器很占優(yōu)勢。乘法器的輸入中至少有一個必須為最小 24 位,同時進位累加器必須為 32 位寬,才能在一個 DSP48E2 Slice 上同時進行兩個 INT8 MACC 運算。27 位輸入可與 48 位累加器相結(jié)合,實現(xiàn) 1.75 倍的解決方案性能提升(DSP 乘法器與 INT8 MACC 之比為 1.75:1)。其他廠商提供的 FPGA 在單個 DSP 模塊中只提供 18x19 乘法器,DSP 乘法器與 INT8 MACC 之比僅為 1:1。

可擴展的 INT8 優(yōu)化

目標(biāo)是找到一種能夠?qū)斎?a 、b 和 c 進行高效編碼的方法,這樣 a 、b 和 c 之間的相乘結(jié)果可以輕松分解為 a x c 和 b x c。鑒于公共輸入 c,這種方法可以推斷為單個指令,擁有公共系數(shù)的 2 個數(shù)據(jù)。

在更低精度計算中,例如 INT8 乘法中,高位 10 位或 19 位輸入用 0 或 1 填充,僅攜帶 1 位信息。對最終的 45 位乘積的高位 29 位來說,情況一樣。這樣就可以使用高位 19 位來進行另一個運算,同時不影響低位 8 位和 16 位輸入。

總的來說,要把未使用的高位用于另一計算必須遵循兩條規(guī)則:

1. 高位不應(yīng)影響低位的計算。

2. 低位計算對高位的任何影響必須可檢測、可恢復(fù)。

為滿足上述規(guī)則,高位乘積結(jié)果的最低有效位不得進入低位 16 位。因此高位的輸入應(yīng)至少從第 17 位開始。對一個 8 位的高位輸入,總輸入寬位至少為 16+8=24 位。這種最小 24 位輸入大小只能保證用一個乘法器同時完成兩次相乘,但仍然足以實現(xiàn)總體 1.75 倍的 MACC 吞吐量。

接下來的步驟是在一個 DSP48E2 Slice 中并行計算 ac 和 bc 。DSP48E2 Slice 被用作一個帶有一個 27 位預(yù)加法器(輸入和輸出均為 27 位寬)和一個 27x18 乘法器的算術(shù)單元。見圖 2。

1. 通過預(yù)加法器在 DSP48E2 乘法器的 27 位端口 p 打包 8 位輸入 a 和 b,這樣 2 位向量能盡量分隔開。輸入 a 左移位僅 18 位,這樣從第一項得到的 27 位結(jié)果中的兩個符號位 a 以避免在 b<0 和 a=–128 時預(yù)加法器中發(fā)生溢值。a 的移位量為 18,恰好與 DSP48E2 乘法器端口 B 的寬度一樣。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

圖 2 :8 位優(yōu)化

2. DSP48E2 27x18 乘法器用于計算打包的 27 位端口 p 和以二進制補碼格式表達(dá)在 18 位 c 中的 8 位系數(shù)的積?,F(xiàn)在該 45 位乘積是二進制補碼格式的兩個 44 位項的和:ac 左移位 18 位以及 bc 。

后加法器可用于累加上述包含單獨的高位乘積項和低位乘積項的 45 位乘積。在累加單個 45 位積時,對高位項和低位項進行了校正累加。最終的累加結(jié)果如果沒有溢值,可以用簡單運算分開。

這種方法的局限在于每個 DSP48E2 Slice 能累加的乘積項的數(shù)量。由于高位項和低位項間始終保持兩位(圖 3),可以保證在低位不溢值的情況下累加多達(dá) 7 個項。在七個乘積項后,需要使用額外的 DSP48E2 Slice 來克服這一局限。執(zhí)行 7x2 INT8 乘法- 加法運算,與擁有相同數(shù)量乘法器的競爭型器件相比 INT8 MACC 運算的效率提升 1.75 倍。

根據(jù)實際用例的要求,這種方法有多種變化形式。使用修正線性單元(ReLU)的卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生非負(fù)激活,而無符號 INT8 格式產(chǎn)生額外一位精度和 1.78 倍峰值吞吐量提升。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

圖 3 :用單個 DSP48E2 Slice 打包兩個 INT8 乘運算

DSP48E2 SIMD 模式

DSP48E2 Slice 的后加法器分裂成四個 12 位或兩個 24 位 SIMA ALU(參見圖 4),以執(zhí)行并行加法、減法、累加或逐位邏輯運算。在 SIMD 模式下,DSP48E2 Slice 的預(yù)加法器和乘法器不可用。在每個周期上,ALUMODE[3:0] 控制總線選擇運算,而 OPMODE[8:0] 控制總線則選擇操作數(shù) W、X、Y 和 Z。如果考慮 24 位運算,DSP48E2 Slice 的 P 寄存器能存儲處理兩個輸入陣列的結(jié)果。對每一個陣列按順序求和,每個周期一個元。吞吐量由此變?yōu)槊總€周期產(chǎn)生兩個新結(jié)果。詳細(xì)說明,請參閱《UltraScale 架構(gòu) DSP Slice 用戶指南》(UG579)(關(guān)鍵字“SIMD”、“ALUMODE”和“OPMODE”)[ 參考資料 5 ]。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

圖 4 :DSP48E2 雙 24 位 SIMD 模式

映射 INT8 優(yōu)化到深度學(xué)習(xí)應(yīng)用

新型神經(jīng)網(wǎng)絡(luò)大部分是從這個初始概念模型[ 參考資料 6 ]衍生而來。見圖 5。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

圖 5 :概念和深度神經(jīng)網(wǎng)絡(luò)

雖然從標(biāo)準(zhǔn)感知器結(jié)構(gòu)開始已有相當(dāng)程度的演進,現(xiàn)代深度學(xué)習(xí)(也稱為深度神經(jīng)網(wǎng)絡(luò) (DNN))的基本運算仍然是類感知器的運算,只是有有更大的總體規(guī)模和更深的堆疊感知器結(jié)構(gòu)。圖 5 顯示了感知器的基本運算。在每個典型的深度學(xué)習(xí)推斷中它穿過多個層,最終重復(fù)數(shù)百萬至數(shù)十億次。如圖 6 所示,在神經(jīng)網(wǎng)絡(luò)層中,計算 m 個感知器/ 神經(jīng)元輸出中的每一個輸出的主要計算運算包括:

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

將全部的 n 個輸入樣本

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

乘以對應(yīng)的內(nèi)核權(quán)重

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

并累加結(jié)果

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

其中:f(x) 可以是任何選擇的激活函數(shù)。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

圖 6 :深度學(xué)習(xí)中的感知器

如果的精度限定為 INT8,該乘積之和是 INT8 優(yōu)化方法中介紹的并行 MACC 中的第一個。第二個乘積和使用相同輸入,但內(nèi)核權(quán)重不同。第二個感知器/ 神經(jīng)元輸出的結(jié)果是

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

見圖 7。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

圖 7 :使用共享輸入并行得到兩個乘積項和

使用 INT8 優(yōu)化方法將值向左移位 18 位,每個 DSP48E2 Slice 就得出最終輸出值的部分且獨立的一部分。用于每個 DSP48E2 Slice 的累加器有 48 位寬并鏈接到下一個 Slice。為避免移位飽和影響到計算,鏈接的模塊數(shù)量被限制為 7 個,即對總共 n 個輸入樣本使用 2n 個 MACC 和 n 個 DSP Slice。

典型的 DNN 每層有數(shù)百到數(shù)千個輸入樣本。但是在完成 7 個項的累加后,48 位累加器的低位項可能飽和,因此每 7 個項之和就需要一個額外的 DSP48E2 Slice。這相當(dāng)于每 7 個 DSP48E2 Slice 和 14 個 MACC,另加一個 DSP48E2 Slice 用于防止過飽和,從而帶來 7/4 或 1.75 倍的吞吐量提升。

在卷積神經(jīng)網(wǎng)絡(luò)(CNN)中,卷積層一般主要使用同一組權(quán)重,從而形成 axw 和 bxw 類型的并行 MACC 運算。因此除輸入共享外,還可以使用權(quán)重共享(見圖 8)。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

圖 8 :權(quán)重共享和輸入共享比較

創(chuàng)建 INT8 鏈接 MACC 的其他方法

還可以使用可編程邏輯中與 DSP48E2 Slice 工作頻率近似的可用 LUT(即未被設(shè)計其余部分使用的 LUT)來構(gòu)建 INT8 鏈接 MACC。

使用可用 LUT 能顯著提高深度學(xué)習(xí)性能,一些情況下可提升達(dá) 3 倍之多。在許多情況下,對于其他非FPGA 架構(gòu)而言,在計算可用深度學(xué)習(xí)運算時這些可用的計算資源并未考慮在內(nèi)。

賽靈思 FPGA 和 MPSoC 中的編程邏輯是獨有的,因為它能并行且高效地處理不同工作負(fù)載。例如賽靈思 FPGA 和 MPSoC 能并行執(zhí)行 CNN 圖像分類、網(wǎng)絡(luò)加密和數(shù)據(jù)壓縮。本深度學(xué)習(xí)性能比較分析未將MACC LUT 考慮在內(nèi),因為一般 LUT 用于執(zhí)行其他并行功能比用于執(zhí)行 MACC 功能時更有價值。

映射 INT8 優(yōu)化到計算機視覺功能

Khronos OpenVX 標(biāo)準(zhǔn)定義了一套計算機視覺處理模塊,對下列用例尤為重要:面部、身體和手勢跟蹤;智能視頻監(jiān)控;高級駕駛員輔助系統(tǒng) (ADAS) ;對象和情景再現(xiàn);增強現(xiàn)實;目測;機器人等。表 2 顯示了 INT8 優(yōu)化適用的計算機視覺相關(guān)功能。

表 2 :適用于計算機視覺功能的 INT8 優(yōu)化

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

可擴展 INT8 優(yōu)化可檢查同時處理兩個有共享系數(shù)的數(shù)據(jù)項的兼容性。SIMD 可檢查能從 DSP48E2 Slice 中的四個操作數(shù)和算子受益的模塊。數(shù)據(jù)和權(quán)重遵循 8 位限制的所有濾波器相關(guān)模塊都能從這種可擴展 INT8 方法獲益。大多數(shù)其他涉及基本圖像算術(shù)(例如加/ 減或比較等)的模塊能運用 DSP48E2 的 SIMD 運算。

使用可擴展 INT8 優(yōu)化的定制 2D 卷積

在計算機視覺功能環(huán)境中,大部分預(yù)處理任務(wù)會涉及一定程度的過濾。因為圖像主要使用每個通道 8 位的方式表達(dá),深度學(xué)習(xí)應(yīng)用中對 INT8 運算的優(yōu)化能應(yīng)用到圖像處理中的二維過濾運算。唯一的局限是濾波器中的系數(shù)的精度必須能夠用 8 位表達(dá)。這對諸如索貝爾、Scharr、拉普拉斯或其他邊緣檢測濾波器等常見濾波器而言,一般來說是正確的。

使用下列方法之一即可發(fā)揮 DSP48E2 Slice 內(nèi)的雙乘法器模式的作用:

對同一通道在多像素輸出上運算:在這種模式下可以并行計算出兩個輸出像素。因為在圖像中濾波器系數(shù)在像素間共享,因此能同時計算位置 (x,y) 和 (x,y+1) 的像素。按照濾波器計算順序,每個濾波器系數(shù)與兩個不同輸入像素相乘。這意味著在可編程邏輯中提供的資源不變的情況下,性能提高了 1.75 倍。

對不同通道或圖像的多像素輸出進行運算:如果正在處理的圖像有多個通道且濾波器在不同通道間共享,對處于相同位置 (x,y) 的像素,濾波器的系數(shù)可在多通道間共享。相同的方法可擴展用于同時運算多個圖像。

使用 SIMD 運算的中值濾波器

圖像處理中常用的中值濾波器也用于消噪。在圖像上使用中值濾波器涉及用預(yù)設(shè)大小的窗口掃描圖像,計算進入該窗口的像素的中值,使用中值替換中心像素。中值計算屬于高計算強度。它涉及為值排序,然后找到位于列表中間的值。排序流程是一個比較運算序列。

要使用可編程邏輯上的 DSP 實現(xiàn)中值濾波器,可以對算法做改動。每次比較運算可以分為減法運算及后續(xù)的符號位檢查。對減法運算,DSP48E2 Slice 能夠以四個 12 位或兩個 24 位模式進行運算。要充分利用 DSP48E2 Slice,可以并行運算多個像素。假定每個像素為單通道,深度小于 12 位,就可以同時處理四個輸出像素。對每個輸出像素存在多個排序運算,這些排序運算都可以使用 DSP48E2 Slice 中的減法運算。結(jié)果的符號位可以使用最小的邏輯在 DSP48E2 Slice 之外檢查。比較的總數(shù)量取決于用于排序值的算法。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

圖 9 :中值濾波器的 DSP48E2 運算模式

競爭分析

在競爭分析中使用英特爾(前 Altera)的 Arria 10 器件與賽靈思的 Zynq UltraScale+ MPSoC 對比。在進行嵌入式視覺應(yīng)用計算效率比較時,選擇的器件有可比的 DSP 密度和器件功耗:

? Arria 10 SoC :SX220、SX270 和 SX480

? Zynq UltraScale+ MPSoC :ZU3、ZU7 和 ZU9 器件

重點比較能用于包括深度學(xué)習(xí)和計算機視覺在內(nèi)的眾多應(yīng)用的通用 MACC 性能。

英特爾的 MACC 性能基于運用預(yù)加法器的算子。但是這種實現(xiàn)方案產(chǎn)生的是乘積項的和,而非單獨的乘積項。因此英特爾的預(yù)加法器不適用高效深度學(xué)習(xí)或計算機視覺運算。

在本計算效率分析中,每個器件的功耗使用賽靈思的2016.4 版 Power Estimator 工具和英特爾的 16.0.1 版 EPE Power Estimate 工具進行估算,并根據(jù)下列假設(shè)得出:

1. 90% DSP 占用率

2. 英特爾器件 - 速度等級為:2L, 最大頻率下供電電壓為 0.9V

3. 賽靈思器件 - 速度等級為 1L, 最大頻率下供電電壓為 0.72V

4. 時鐘速率為 DSP Fmax 時邏輯利用率為 70%

5. 時鐘速率為 DSP 最大頻率的一半時,Block RAM 利用率為 90%

6. DSP 翻轉(zhuǎn)率為 12.5%

7. 功耗特征:“典型功耗”

圖 10 所示的即為深度學(xué)習(xí)和計算機視覺運算的能效對比。與英特爾的 Arria 10 SoC 器件相比,賽靈思器件能讓深度學(xué)習(xí)和計算機視覺運算的計算效率提高 3-7 倍。

賽靈思INT8優(yōu)化為嵌入式視覺應(yīng)用提供性能和計算方法

圖 10 :INT8 深度學(xué)習(xí)和計算機視覺能效對比:賽靈思對比英特爾

結(jié) 論

本白皮書探討了如何在賽靈思 DSP48E2 Slice 上優(yōu)化 INT8 深度學(xué)習(xí)和計算機視覺運算,從而實現(xiàn) 1.75 倍的性能提升。賽靈思 DSP48E2 Slice 可用于在共享相同內(nèi)核權(quán)重的同時處理兩個并行的 INT8 MACC 運算。為高效實現(xiàn) INT8,需要 24 位輸入寬度,這一優(yōu)勢只有賽靈思 DSP48E2 Slice 支持。同樣的優(yōu)勢還能用于計算機視覺運算,例如過濾任務(wù)及其它圖像操作任務(wù)。賽靈思的 DSP48E2 Slice 的 SIMD 模式為開展四個 12 位或兩個 24 位 SIMD 運算提供了新的途徑。

總之,賽靈思的 Zynq UltraScale+ MPSoC 非常適用于 INT8 工作負(fù)載,使之成為為嵌入式視覺領(lǐng)域大量應(yīng)用加速的理想選擇。賽靈思不斷創(chuàng)新新的基于軟/ 硬件的方法,以加速嵌入式視覺應(yīng)用領(lǐng)域的深度學(xué)習(xí)和計算機視覺功能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 計算機視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1705

    瀏覽量

    46466
  • 嵌入式視覺
    +關(guān)注

    關(guān)注

    8

    文章

    118

    瀏覽量

    59414
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5547

    瀏覽量

    122294
收藏 人收藏

    評論

    相關(guān)推薦

    采用FPGA實現(xiàn)DisplayPort詳細(xì)教程【內(nèi)部資料】

    ,以及如何使用我們即將推出的 XAPP“使用 MicroBlazeTM 嵌入式系統(tǒng)實施 DisplayPort Source PolicyMaker 控制系統(tǒng)參考設(shè)計作者:Carol Fields
    發(fā)表于 03-01 11:10

    用OpenCV和Vivado HLS加速基于Zynq SoC的嵌入式視覺應(yīng)用開發(fā)

    設(shè)計流程  為了進一步幫助嵌入式視覺開發(fā)人員創(chuàng)建Smarter Vision系統(tǒng),在Vivado中增加了對OpenCV
    發(fā)表于 04-21 15:49

    XilinxFPGA技術(shù)及應(yīng)用線上公開課

    ` 本帖最后由 MGJOY 于 2017-4-10 15:07 編輯 本周三,4月12日,FPGA技術(shù)及應(yīng)用線上公開課。歡迎大家觀看、學(xué)習(xí)交流~分享主題【
    發(fā)表于 04-10 15:06

    基于Spartan-3A的視頻分析

    視頻分析對性能處理的要求可充分發(fā)揮FPGA的并行架構(gòu)、嵌入式和DSP處理能力所帶來的優(yōu)點。
    發(fā)表于 05-16 10:26 ?1322次閱讀
    基于<b class='flag-5'>賽</b><b class='flag-5'>靈</b><b class='flag-5'>思</b>Spartan-3A的視頻分析

    收購嵌入式Linux方案提供商PetaLogix

    All Programmable技術(shù)和器件的全球領(lǐng)先企業(yè)公司(Xilinx, Inc. (NASDAQ:XLNX) )今天宣布收購嵌入式Linux解決方案
    發(fā)表于 08-30 16:59 ?689次閱讀

    收購嵌入式Linux方案提供商PetaLogix

    公司(Xilinx)宣布收購嵌入式Linux解決方案提供商PetaLogix。隨著Linux解決方案成為越來越多依賴
    發(fā)表于 09-05 09:14 ?602次閱讀

    玩轉(zhuǎn)Xilinx嵌入式視覺開發(fā)者專區(qū) 讓視覺系統(tǒng)開發(fā)更加簡單

    Programmable 的差異化嵌入式視覺應(yīng)用。通過嵌入式視覺開發(fā)者專區(qū),
    發(fā)表于 11-10 14:49 ?1076次閱讀

    強化嵌入式視覺應(yīng)用與工業(yè)物聯(lián)網(wǎng)產(chǎn)品系列

    與軟件定義SDSoC開發(fā)環(huán)境公用版。這些新產(chǎn)品、開發(fā)環(huán)境及強化產(chǎn)業(yè)生態(tài)系的結(jié)合,使該公司客戶得以在快速成長的嵌入式視覺應(yīng)用與工業(yè)物聯(lián)網(wǎng)市場中,創(chuàng)造具更高差異化與靈活性的應(yīng)用。
    發(fā)表于 02-08 17:37 ?236次閱讀

    Xilinx INT8 優(yōu)化開發(fā)嵌入式視覺

    INT8 優(yōu)化為使用深度學(xué)習(xí)推斷和傳統(tǒng)計算視覺
    的頭像 發(fā)表于 09-22 17:27 ?5623次閱讀

    嵌入式視覺的發(fā)展趨勢及其算法示例

    在這篇文章中,前機器視覺市場戰(zhàn)略總監(jiān)Aaron Behman 針對嵌入式視覺方面的問題進行
    發(fā)表于 11-15 17:27 ?5700次閱讀

    DSP48E2 Slice 上優(yōu)化 INT8 深度學(xué)習(xí)運算分析

    學(xué)習(xí)每秒運算次數(shù) (OPS) 上相比其它 FPGA,能實現(xiàn) 1.75 倍的峰值解決方案級性能。由于深度學(xué)習(xí)推斷可以在不犧牲準(zhǔn)確性的情況下使用較低位精度,因此需要高效的 INT8 實現(xiàn)方案。
    發(fā)表于 11-16 14:23 ?1.5w次閱讀
    DSP48E2 Slice 上<b class='flag-5'>優(yōu)化</b> <b class='flag-5'>INT8</b> 深度學(xué)習(xí)運算分析

    擴大生態(tài)系統(tǒng),重塑嵌入式視覺、工業(yè)物聯(lián)網(wǎng)系統(tǒng)設(shè)計的未來

    的系統(tǒng)正在重塑嵌入式視覺和工業(yè)物聯(lián)網(wǎng) (IIoT) 的未來。于今年 2 月在德國紐倫堡舉辦的嵌入式
    的頭像 發(fā)表于 02-14 03:09 ?3649次閱讀
    <b class='flag-5'>賽</b><b class='flag-5'>靈</b><b class='flag-5'>思</b>擴大生態(tài)系統(tǒng),重塑<b class='flag-5'>嵌入式</b><b class='flag-5'>視覺</b>、工業(yè)物聯(lián)網(wǎng)系統(tǒng)設(shè)計的未來

    Arm攜手助力嵌入式開發(fā)人員獲取成熟的Arm IP

    Arm和(Xilinx)強強聯(lián)合,將業(yè)界最強大、最成熟的嵌入式生態(tài)系統(tǒng)優(yōu)勢與賽FPGA
    的頭像 發(fā)表于 10-11 10:05 ?3289次閱讀

    INT8優(yōu)化為嵌入式視覺應(yīng)用性能計算方法

    的 DSP 架構(gòu)和庫針對 INT8 運算進行了精心優(yōu)化。本白皮書介紹如何使用
    的頭像 發(fā)表于 07-29 11:19 ?2617次閱讀

    性能優(yōu)良的FPGA嵌入式處理器平臺

    公司昨天宣布了由獨立的第三方對運行Accelerated Technology公司(AT)的Nucleus實時操作系統(tǒng)(RTOS)的32位MicroBlaze處理器平臺進行的測試結(jié)果,再次證明了
    發(fā)表于 06-28 11:38 ?2409次閱讀
    主站蜘蛛池模板: 天天干天天射天天爽 | 国产亚洲综合精品一区二区三区 | 日本三级带日本三级带黄首页 | 国产成人精品一区二区三区 | 一级做a爰片久久毛片一 | 啪啪色视频 | 六月激情| 久久免费看 | www射| 四虎国产视频 | 免费视频观看 | 色噜噜狠狠成人中文小说 | 亚洲美女视频在线观看 | 欧美日韩高清一区 | 一区二区三区免费 | 亚洲人成人 | 人人精品 | 午夜激情啪啪 | 久草色播 | 久久夜夜操妹子 | 久久久久久久综合狠狠综合 | 国产精品网站在线进入 | 欧美xxx另类| 欧美一级色 | 亚洲成在线| 爱爱小视频免费 | 欧美午夜网 | 婷婷六月综合 | 国产精品成人免费观看 | 波多野结衣在线视频观看 | 久久亚洲免费视频 | 欧美一级在线观看视频 | 日本不卡免费高清一级视频 | 国产精品免费拍拍拍 | 色婷婷亚洲十月十月色天 | 国产高清一级在线观看 | 天天射日日射 | 色丁香在线观看 | 久久久免费精品视频 | 97天天摸天天碰天天爽 | 久久天天躁狠狠躁夜夜爽 |