來(lái)源:OpenCV學(xué)堂
作者:gloomyfish
前言
OpenCV DNN模塊支持的圖像語(yǔ)義分割網(wǎng)絡(luò)FCN是基于VGG16作為基礎(chǔ)網(wǎng)絡(luò),運(yùn)行速度很慢,無(wú)法做到實(shí)時(shí)語(yǔ)義分割。2016年提出的ENet實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò)基于編碼與解碼的網(wǎng)絡(luò)語(yǔ)義分割方式,類似UNet網(wǎng)絡(luò),通過(guò)構(gòu)建自定義Block塊,在Cityscapes, CamVid, SUN數(shù)據(jù)集上實(shí)現(xiàn)了性能與實(shí)時(shí)雙提高。
ENet網(wǎng)絡(luò)結(jié)構(gòu)
作者從ResNet網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)中收到啟發(fā),定義兩個(gè)新的Block結(jié)構(gòu),如下:
其中a是初始Block,非重疊2x2最大池化,左側(cè)卷積步長(zhǎng)為2,然后13個(gè)filters之連接合并,該結(jié)構(gòu)注意是收到了Inception改進(jìn)模型的啟發(fā)。B是ENet的bottleneck模塊,其中卷積可能是正常卷積、空洞卷積、反卷積,使用3x3或者5x5的filters,最終合并在一起是按空間位置相加。兩個(gè)1x1的卷積分別用來(lái)降低維度與擴(kuò)展,使用BN/Dropout正則化,PReLU非線性激活。最終的ENet網(wǎng)絡(luò)模型結(jié)構(gòu)如下:
其中stage2跟stage3結(jié)構(gòu)相同,stage4跟stage5屬于解碼部分。
設(shè)計(jì)考量
常見的深度學(xué)習(xí)語(yǔ)義分割模型在下采樣操作上的兩個(gè)缺點(diǎn):一是降低Feature Map的分辨率會(huì)導(dǎo)致圖像空間信息損失,特別是圖像邊緣信息,這個(gè)對(duì)語(yǔ)義分割精度有明顯影響;二是像素級(jí)別的語(yǔ)義分割網(wǎng)絡(luò)要求輸入跟輸出的分辨率保持一致,這個(gè)就要求強(qiáng)的下采樣跟強(qiáng)的上采樣必須對(duì)稱,這個(gè)增加了模型的計(jì)算與參數(shù)量。其中第一個(gè)問(wèn)題在FCN與SegNet網(wǎng)絡(luò)中通過(guò)在編碼階段疊加Feature Map與在解碼階段通過(guò)稀疏上采樣來(lái)抑制,但是強(qiáng)的下采樣依然對(duì)整個(gè)語(yǔ)義分割精度有傷害,要在設(shè)計(jì)時(shí)候適當(dāng)?shù)募右韵拗啤?/p>
但是下采樣同樣可以幫助獲得較大的感受野,區(qū)分不同的類別,作者發(fā)現(xiàn)空洞卷積在這個(gè)方面特別有幫助,ENet為了獲得實(shí)時(shí)性能,采用了早期下采樣策略來(lái)降低計(jì)算SegNet跟UNet都是對(duì)稱的網(wǎng)絡(luò)結(jié)構(gòu),ENet采用大的編碼網(wǎng)絡(luò),小的解碼網(wǎng)絡(luò)實(shí)現(xiàn)的不對(duì)稱結(jié)構(gòu),編碼網(wǎng)絡(luò)實(shí)現(xiàn)分類任務(wù),解碼網(wǎng)絡(luò)主要是優(yōu)化細(xì)節(jié),更好的輸出結(jié)果。
此外作者在設(shè)計(jì)過(guò)程中還考慮了非線性激活、空洞卷積、正則化方式的影響。
OpenCV DNN使用ENet道路分割
OpenCV DNN模塊從OpenCV4.0版本開始支持ENet網(wǎng)絡(luò)模型加載與解析,其中的道路分割模型可以從下面的地址下載:
https://github.com/e-lab/ENet-training
在OpenCV DNN使用該模型時(shí)轉(zhuǎn)換Blob輸入相關(guān)參數(shù)信息如下:
mean: [0, 0, 0]
scale: 0.00392
width: 512
height: 256
rgb: true
classes: "enet-classes.txt"
其中分類文件enet-classes.txt可以從OpenCV的sample/data/dnn中發(fā)現(xiàn)。輸出的數(shù)據(jù)格式為:Nx20xHxW,其中N=1表示每次輸入的一張圖像,20是基于Cityscapes數(shù)據(jù)集訓(xùn)練的20個(gè)類別標(biāo)簽,H跟W是輸入時(shí)圖像分辨率(512x256)。
最初版本代碼實(shí)現(xiàn)
該代碼實(shí)現(xiàn)是來(lái)自C++版本的翻譯,完整的演示代碼如下:
#loadCNNmodelbin_model="D:/projects/models/enet/model-best.net";net=cv.dnn.readNetFromTorch(bin_model)#readinputdataframe=cv.imread("D:/images/software.jpg");blob=cv.dnn.blobFromImage(frame,0.00392,(512,256),(0,0,0),True,False);cv.imshow("input",frame)#Runamodelnet.setInput(blob)score=net.forward()#Putefficiencyinformation.t,_=net.getPerfProfile()label='Inferencetime:%.2fms'%(t*1000.0/cv.getTickFrequency())print(score.shape)#generatecolortablecolor_lut=[]n,con,h,w=score.shapeforiinrange(con):b=np.random.randint(0,256)g=np.random.randint(0,256)r=np.random.randint(0,256)color_lut.append((b,g,r))maxCl=np.zeros((h,w),dtype=np.int32);maxVal=np.zeros((h,w),dtype=np.float32);#findmaxscorefor20channelsonpixel-wiseforiinrange(con):forrowinrange(h):forcolinrange(w):t=maxVal[row,col]s=score[0,i,row,col]ifs>t:maxVal[row,col]=smaxCl[row,col]=i#colorfulthesegmentationimagesegm=np.zeros((h,w,3),dtype=np.uint8)forrowinrange(h):forcolinrange(w):index=maxCl[row,col]segm[row,col]=color_lut[index]h,w=frame.shape[:2]segm=cv.resize(segm,(w,h),None,0,0,cv.INTER_NEAREST)print(segm.shape,frame.shape)frame=cv.addWeighted(frame,0.2,segm,0.8,0.0)cv.putText(frame,label,(0,15),cv.FONT_HERSHEY_SIMPLEX,0.5,(0,255,0))cv.imshow("ENet-Demo",frame)cv.imwrite("D:/result.png",frame)cv.waitKey(0)cv.destroyAllWindows()
總的來(lái)說(shuō)比較啰嗦!
修改后代碼熟實(shí)現(xiàn)
上面是我在2019年3月份時(shí)候在OpenCV研習(xí)社 的代碼分享,當(dāng)時(shí)主要是把C++代碼直接翻譯過(guò)來(lái),并沒(méi)有太多考慮,今天又重新看了一下感覺(jué)自己寫了點(diǎn)垃圾代碼,所以重新整理了一下,把輸出解析的部分基于Numpy跟OpenCV-Python函數(shù)做了簡(jiǎn)化,最終得到的代碼如下:
1#loadCNNmodel 2bin_model="D:/projects/models/enet/model-best.net"; 3net=cv.dnn.readNetFromTorch(bin_model) 4#readinputdata 5frame=cv.imread("D:/images/spacecity.png"); 6blob=cv.dnn.blobFromImage(frame,0.00392,(512,256),(0,0,0),True,False); 7cv.imshow("input",frame) 8h,w,c=frame.shape 910#Runamodel11net.setInput(blob)12score=net.forward()13#Putefficiencyinformation.14t,_=net.getPerfProfile()15label='Inferencetime:%.2fms'%(t*1000.0/cv.getTickFrequency())16score=np.squeeze(score)17score=score.transpose((1,2,0))18score=np.argmax(score,2)19mask=np.uint8(score)20mask=cv.cvtColor(mask,cv.COLOR_GRAY2BGR)21cv.normalize(mask,mask,0,255,cv.NORM_MINMAX)22cmask=cv.applyColorMap(mask,cv.COLORMAP_JET)23cmask=cv.resize(cmask,(w,h))24dst=cv.addWeighted(frame,0.7,cmask,0.3,0)25cv.putText(dst,label,(50,50),cv.FONT_HERSHEY_SIMPLEX,0.75,(0,0,255),2)26cv.imshow("dst",dst)27cv.waitKey(0)
總的執(zhí)行時(shí)間也大大減少,主要去除了一些無(wú)謂的循環(huán)解析輸出數(shù)據(jù)部分。CPU上10+FPS 應(yīng)該沒(méi)問(wèn)題!實(shí)時(shí)get!
審核編輯 黃昊宇
-
cpu
+關(guān)注
關(guān)注
68文章
11015瀏覽量
215318 -
人工智能
+關(guān)注
關(guān)注
1804文章
48486瀏覽量
245214
發(fā)布評(píng)論請(qǐng)先 登錄
汽車導(dǎo)航軟件是如何知道道路的實(shí)時(shí)擁堵情況的
Altium Designer 19用顏色區(qū)分內(nèi)電層的各個(gè)分割區(qū)域的方法
C6748 ENET_ECHO例程燒寫到NOR后網(wǎng)絡(luò)起不來(lái)
如何通過(guò)任務(wù)分割提高嵌入式系統(tǒng)的實(shí)時(shí)性?
iMX6UL核心板CPU的ENET1_TX_CLK信號(hào)是可以配置成50Mhz時(shí)鐘輸出嗎?
你能確認(rèn)ENET-AVB2對(duì)應(yīng)ENET1控制器,ENET-AVB1對(duì)應(yīng)ENET0控制器嗎?
rt1052 ENET_ReadFrame返回kStatus_ENET_RxFrameFail,要做什么處理?
ENET_RXBD_NUM值是否影響接收中斷響應(yīng)?
通過(guò)任務(wù)分割提高嵌入式系統(tǒng)的實(shí)時(shí)性
Facebook AI使用單一神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)同時(shí)完成實(shí)例分割和語(yǔ)義分割

一文匯總當(dāng)前主流的分割網(wǎng)絡(luò)

RGPNET:復(fù)雜環(huán)境下實(shí)時(shí)通用語(yǔ)義分割網(wǎng)絡(luò)
分析總結(jié)基于深度神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義分割方法

MELSEC iQ F FX5 ENET硬件手冊(cè)

MELSEC iQ F FX5 ENET/IP硬件手冊(cè)

評(píng)論