視覺應(yīng)用與人工智能(AI)正朝著精細(xì)化的方向發(fā)展,其背后的多種推動力中,最重要的兩種是高端智能手機(jī)的先進(jìn)功能以及ADAS(高級駕駛輔助系統(tǒng))/自動駕駛技術(shù)。
智能手機(jī)的面部識別功能需要同時調(diào)用視覺與AI處理兩種技術(shù),而且技術(shù)難度不斷增加。最難的部分在于非理想狀態(tài)下的面部識別,如側(cè)臉、戴帽子、部分臉被圍巾遮蓋等。為此,智能手機(jī)的攝像頭變得越來越精細(xì),采用多種傳感器實(shí)現(xiàn)高動態(tài)范圍圖像(HDR)、雙攝變焦、圖像穩(wěn)定等功能。
第二個推動力,即ADAS,它的設(shè)計(jì)需要滿足兩大需求。第一個是面向特定功能的性能要求,比如行人偵測、駕駛員注意力監(jiān)控、道路偏離預(yù)警;第二個是降低功耗。大多數(shù)芯片都安裝在空氣流通較差的環(huán)境(沒有風(fēng)扇),甚至極端溫度環(huán)境,如前擋風(fēng)玻璃上后視鏡的背面。
還有一些其他驅(qū)動因素,如虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、機(jī)器人、無人機(jī)、監(jiān)控?cái)z像頭等技術(shù)的發(fā)展,它們的需求與上述場景大同小異。
上述功能、視覺和AI技術(shù)通常被集成到單獨(dú)的攝像頭管道,從降噪、視覺后處理等任務(wù)開始,再到圖像分類和分割。有時候,AI需要先完成場景分類,然后再執(zhí)行HDR或Bokeh焦外成像(模糊處理在日語里被稱作 boke)等精細(xì)圖像處理任務(wù)。
總體看來,目前有以下三種技術(shù)需求:
將視覺和AI處理集成在單一DSP
提升性能
極低功耗的限制
為了滿足這三種技術(shù)需求,新一代Tensilica Vision處理器應(yīng)運(yùn)而生。
全新Tensilica Vision Q6簡介
提高性能,我們考慮了下面幾套可選方案:
增加SIMD寬度或VLIW槽的數(shù)量。但是這樣會增加編程難度,因?yàn)楹芏嚅e散資源無法有效利用。簡單地增加算力比有效地利用算力要簡單。
多核。可以立馬將可用處理能力提高一倍(或更多),但是需要兩倍的本地內(nèi)存,而且很難做到每個核計(jì)算負(fù)載的平衡
升頻。顯而易見的提高性能的方法,但代價(jià)是面積(成本)和功耗的增加
打造更高性能的新架構(gòu)
Cadence決定采取第四種方案。全新Vision Q6 DSP是第五代產(chǎn)品,面向視覺和AI 應(yīng)用量身打造,采用13級流水線,16nm工藝下可實(shí)現(xiàn)1.5GHz處理器頻率。較上一代P5,相同版圖面積條件下的頻率提升達(dá)50%。峰值性能的效率提高1.25倍。采用標(biāo)準(zhǔn)圖像處理內(nèi)核時,性能提升可達(dá)2倍。
流水線構(gòu)成如下:
指令前端(3級)
指令解碼與分派(2級)
AR/標(biāo)量整數(shù)管道(5標(biāo)量寄存器/標(biāo)量流水線)
矢量DSP(3級)
讀取和寫入會在指令解碼一級完成后分別進(jìn)行。同時,矢量執(zhí)行和標(biāo)量執(zhí)行也分開進(jìn)行,這樣可以提高標(biāo)量性能,并提供了增加標(biāo)量cache的機(jī)會。該cache可以提高標(biāo)量處理能力50%,而且存儲器速度越慢,cache優(yōu)勢就越明顯(與沒有cache的情況相比)。
Q6的另一個新特色是添加了一個分支預(yù)測。流水線越深,這個功能就越重要,因?yàn)橐坏╁e過就必須清空并重新填充流水線。
Q6與P6向上兼容,為P6寫的任何代碼都可以無需修改在Q6上運(yùn)行。但是Q6有一些新指令無法在P6上運(yùn)行。
憑借AXI4互聯(lián)技術(shù),Q6可以在多處理器環(huán)境中運(yùn)行。用戶不僅可以使用多個Q6 核,在VQ6的系統(tǒng)中增加VisionC5來分擔(dān)AI的處理。
Q6編程
在芯片上設(shè)計(jì)一大堆高性能處理資源是很容易的,但程序員可能最終無法從高層軟件開發(fā)中獲得這些處理資源。AI采用多種框架,Q6可以實(shí)現(xiàn)以下功能:
安卓神經(jīng)網(wǎng)絡(luò):在安卓平臺(即非蘋果智能機(jī))上實(shí)現(xiàn)本地AI應(yīng)用
TensorFlow、TensorFlow Lite、Caffe
定制層支持:用戶可以在標(biāo)準(zhǔn)網(wǎng)絡(luò)基礎(chǔ)上自行添加特殊功能
支持多種標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)(MobileNet、Inception、Resnet、VGG、Segnet、FCN、YOLO、RCNN、SSD等)
安卓神經(jīng)網(wǎng)絡(luò)(ANN)相對比較新,去年10月剛剛發(fā)布,到現(xiàn)在也就半年的時間。ANN提供的神經(jīng)網(wǎng)絡(luò)API可以讓開發(fā)者無需關(guān)注具體AI處理是在應(yīng)用處理器(通常是高端ARM處理器)還是在專有的AI DSP上執(zhí)行。。Q6支持運(yùn)行在安卓8.1系統(tǒng)(Oreo)的ANN,可實(shí)現(xiàn)實(shí)時的優(yōu)化執(zhí)行。右圖顯示的是ANN各組件的協(xié)作方式。作為專用處理器(也可稱DSP,術(shù)語不同而已)的Q6位于流程的中心。
上圖中顯示的是現(xiàn)有Tensilica AI工具鏈,也稱為XNNC(Xtensa神經(jīng)網(wǎng)絡(luò)編譯器)。該工具鏈需要一個神經(jīng)網(wǎng)絡(luò)描述符(在Caffe或Tensorflow框架下)將其編譯成可以在Q6(或P6、C5)上運(yùn)行的代碼。它可以自動處理許多管理工作,如DMA和tile管理。Tensilica AI處理技術(shù)采用8位定點(diǎn)權(quán)重,但經(jīng)過幾年的發(fā)展,32位浮點(diǎn)和8位定點(diǎn)也能實(shí)現(xiàn)同樣的精度了(約0.5%量子化誤差),其好處就是可以節(jié)省大量的功耗和面積。
對于HDR、語音身份認(rèn)證、圖像穩(wěn)定等特殊算法,Cadence正與相關(guān)領(lǐng)域的合作伙伴展開廣泛合作。我們還是Khronos公司OpenVX工作組的負(fù)責(zé)人,推動視覺處理分流標(biāo)準(zhǔn)的開發(fā)。
-
AI
+關(guān)注
關(guān)注
88文章
35123瀏覽量
279673 -
adas
+關(guān)注
關(guān)注
310文章
2258瀏覽量
210241
原文標(biāo)題:新的AI時代需要新架構(gòu):Tensilica Vision Q6
文章出處:【微信號:gh_fca7f1c2678a,微信公眾號:Cadence楷登】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
飛騰OPS電腦助力5G、AI時代智能教育發(fā)展新趨勢
中軟國際科創(chuàng)中心驅(qū)動AI產(chǎn)業(yè)未來發(fā)展
AI時代企業(yè)需要怎樣的數(shù)據(jù)存儲

首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手
適用于數(shù)據(jù)中心和AI時代的800G網(wǎng)絡(luò)
Banana Pi 發(fā)布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計(jì)算與嵌入式開發(fā)
FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預(yù)測......
當(dāng)我問DeepSeek AI爆發(fā)時代的FPGA是否重要?答案是......
AI賦能邊緣網(wǎng)關(guān):開啟智能時代的新藍(lán)海
人工智能發(fā)展需要新的芯片技術(shù)

評論