隨著人工智能和物聯(lián)網(wǎng)技術(shù)的融合,AIoT(人工智能物聯(lián)網(wǎng))的概念應(yīng)運(yùn)而生,即AI(人工智能)+IoT(物聯(lián)網(wǎng))。目前,邊緣AI正廣泛應(yīng)用于工業(yè)領(lǐng)域,這種技術(shù)可以為工業(yè)物聯(lián)網(wǎng)邊緣的多傳感器分析和機(jī)器學(xué)習(xí)應(yīng)用提供最低的時延、功耗和成本。在工業(yè)領(lǐng)域,當(dāng)前熱門的邊緣AI應(yīng)用包括工業(yè)機(jī)器人、智慧路燈、智能監(jiān)控等。
目前,在AI計算平臺使用最廣泛的兩種加速部件是GPU和FPGA。GPU已經(jīng)在深度學(xué)習(xí)訓(xùn)練模型領(lǐng)域開創(chuàng)性地創(chuàng)建了包含CNN、DNN、RNN、LSTM以及強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)等算法在內(nèi)的應(yīng)用加速平臺和完整的生態(tài)系統(tǒng)。深度學(xué)習(xí)包含兩個計算環(huán)節(jié),即線下訓(xùn)練和線上推理環(huán)節(jié)。GPU在深度學(xué)習(xí)算法模型訓(xùn)練上非常高效,但在推理時,一次性只能對于一個輸入項進(jìn)行處理,并行計算的優(yōu)勢不能發(fā)揮出來.
相比較而言,運(yùn)行深度學(xué)習(xí)算法實(shí)現(xiàn)同樣的性能,GPU所需功耗遠(yuǎn)大于FPGA,通常情況下,GPU只能達(dá)到FPGA能效比的一半或更低。目前來看,深度學(xué)習(xí)算法還未完全成熟,算法還在迭代衍化過程中,若深度學(xué)習(xí)算法發(fā)生大的變化,GPU無法像FPGA一樣可以靈活的配置硬件結(jié)構(gòu),快速切入市場。
01、FPGA有啥優(yōu)勢?什么樣的場景更適合FPGA?
CPU是一種非常通用的架構(gòu),它的工作方式基于一系列的計算機(jī)指令,也稱為“指令集”。簡單來說,CPU從內(nèi)存中提取一小部分?jǐn)?shù)據(jù),放在寄存器或者緩存中,然后使用一系列指令對這些數(shù)據(jù)進(jìn)行操作。操作完畢后,將數(shù)據(jù)寫回內(nèi)存,提取另一小部分?jǐn)?shù)據(jù),再用指令進(jìn)行操作,并周而復(fù)始。我把這種計算方式稱為“時域計算”。
不過,如果這些需要用指令進(jìn)行處理的數(shù)據(jù)集太大,或者這些數(shù)據(jù)值太大,那么CPU就不能很高效的應(yīng)對這種情況。這就是為什么在處理高速網(wǎng)絡(luò)流量的時候,我們往往需要使用定制芯片,比如網(wǎng)卡芯片等,而不是CPU。這是因為在CPU中,即使處理一個字節(jié)的數(shù)據(jù)也必須使用一堆指令才能完成,而當(dāng)數(shù)據(jù)流以每秒125億字節(jié)進(jìn)入系統(tǒng)時,這種處理方式哪怕使用再多的線程也忙不過來。
對于GPU來說,它所擅長的是被稱作“單指令多數(shù)據(jù)流(SIMD)”的并行處理。這種處理方式的本質(zhì)是,在GPU中有著一堆相同的計算核心,可以處理類似但并不是完全相同的數(shù)據(jù)集。因此,可以使用一條指令,就讓這些計算核心執(zhí)行相同的操作,并且平行的處理所有數(shù)據(jù)。
首先,深度學(xué)習(xí)包含兩個計算環(huán)節(jié),即訓(xùn)練和推理環(huán)節(jié)。GPU強(qiáng)在訓(xùn)練,而FPGA強(qiáng)在推斷,F(xiàn)PGA 同時擁有流水線并行和數(shù)據(jù)并行,因此處理任務(wù)時候延遲更低。例如處理一個數(shù)據(jù)包有10 個步驟,F(xiàn)PGA 可以搭建一個10 級流水線,流水線的不同級在處理不同的數(shù)據(jù)包,每個數(shù)據(jù)包流經(jīng)10 級之后處理完成。每處理完成一個數(shù)據(jù)包,就能馬上輸出。通常來說,F(xiàn)PGA 加速只需要微秒級的PCIe 延遲。當(dāng)Intel 推出通過QPI快速通道互聯(lián)的Xeon + FPGA 之后,CPU 和FPGA 之間的延遲甚至可以降到100 納秒以下。
其次,F(xiàn)PGA是可編程芯片,算法燒錄更加靈活。目前來看,深度學(xué)習(xí)算法還未完全成熟,算法還在迭代衍化過程中,若深度學(xué)習(xí)算法發(fā)生大的變化,F(xiàn)PGA是軟件定義硬件,可以靈活切換算法,快速切入市場。
02、FPGA的計算性能在其他領(lǐng)域的應(yīng)用
除了在AI的線上推理方向,F(xiàn)PGA在其他很多方面也能發(fā)揮價值。在面向計算密集型任務(wù),比如矩陣運(yùn)算、圖像處理、機(jī)器學(xué)習(xí)、壓縮、非對稱加密、搜索的排序等的時候,擁有流水線并行和數(shù)據(jù)并行的FPGA效率會高很多
03、FPGA的獨(dú)特優(yōu)勢有哪些?
傳統(tǒng)的FPGA的開發(fā)類似于芯片的開發(fā),采用硬件描述語言(HDL)開發(fā),HDL開發(fā)帶來的問題就會像芯片設(shè)計一樣周期會比較長,從架構(gòu)設(shè)計、到仿真驗證、再到最終完成,需要一年左右的開發(fā)時間。
但是互聯(lián)網(wǎng)的業(yè)務(wù)迭代速度極快,在幾個月時間內(nèi)就可能完成龐大用戶群的積累,因此業(yè)務(wù)對于數(shù)據(jù)中心的要求是“快”—計算力平臺的升級要盡量快地滿足業(yè)務(wù)的發(fā)展,因此FPGA的傳統(tǒng)開發(fā)模式動輒以半年或年為單位的開發(fā)周期難以滿足需求。
為此嘗試通過OpenCL高級語言開發(fā)方式,它把底層的硬件如總線、IO接口、訪存控制器等和底層軟件如驅(qū)動、函數(shù)調(diào)用等全部封裝,變成標(biāo)準(zhǔn)單元提供上層支持,用戶只需要關(guān)注算法本身,OpenCL開發(fā)的邏輯通過編譯工具直接映射到FPGA中,開發(fā)周期從至少1年縮短至4個月以內(nèi)。
04、FPGA可以應(yīng)用在哪些領(lǐng)域?
在機(jī)器學(xué)習(xí)領(lǐng)域、金融領(lǐng)域、大數(shù)據(jù)領(lǐng)域、基因檢測領(lǐng)域都存在比較大的數(shù)據(jù)量需要分析計算,這些是FPGA可以發(fā)揮高吞吐優(yōu)勢的領(lǐng)域。
網(wǎng)絡(luò)安全領(lǐng)域有更安全、更低延時的需求,這些場景也可以發(fā)揮FPGA低延時的優(yōu)勢。
超大規(guī)模圖像處理,這些圖片的處理都使用FPGA來進(jìn)行處理加速,都可以得到滿意的效果。
現(xiàn)在比較熱門的自然語言處理和語音識別這些也都是FPGA可以發(fā)揮優(yōu)勢的場景。
當(dāng)FPGA成為一種計算力服務(wù),有著高效的硬件、成熟的IP和云化管理,你還在顧慮什么?
未來,CPU+FPGA或許將作為新的異構(gòu)加速模式,被越來越多的應(yīng)用領(lǐng)域采用。
編輯:hfy
-
FPGA
+關(guān)注
關(guān)注
1632文章
21816瀏覽量
607054 -
gpu
+關(guān)注
關(guān)注
28文章
4805瀏覽量
129580 -
AIoT
+關(guān)注
關(guān)注
8文章
1426瀏覽量
31089
發(fā)布評論請先 登錄
相關(guān)推薦
ADS1294和ADS1298有啥區(qū)別啊?
FPGA 實(shí)時信號處理應(yīng)用 FPGA在圖像處理中的優(yōu)勢
FPGA在圖像處理領(lǐng)域的優(yōu)勢有哪些?
FPGA在自動駕駛領(lǐng)域有哪些優(yōu)勢?
FPGA在自動駕駛領(lǐng)域有哪些應(yīng)用?
FPGA在人工智能中的應(yīng)用有哪些?
科普:GPU和FPGA,有何異同

國產(chǎn)FPGA的優(yōu)勢是什么?
FPGA技術(shù)的五大優(yōu)勢
fpga封裝技術(shù)有哪些應(yīng)用領(lǐng)域
RFID技術(shù)在人員定位和監(jiān)控方面相較于其他技術(shù)有何明顯優(yōu)勢?
fpga仿真軟件有哪些
專家訪談 | FPGA到底是啥?如何做好FPGA質(zhì)量控制與測試?

評論