本文介紹的論文提出了一種新的實(shí)時(shí)通用語(yǔ)義分割體系結(jié)構(gòu)RGPNet,在復(fù)雜環(huán)境下取得了顯著的性能提升。
作者: Tom Hardy
首發(fā):3D視覺(jué)工坊微信公眾號(hào)
論文:RGPNet: A Real-Time General Purpose Semantic Segmentation (文末可下載)
論文鏈接:https://arxiv.org/abs/1912.01394
一、主要思想
本文提出了一種新的實(shí)時(shí)通用語(yǔ)義分割體系結(jié)構(gòu)RGPNet,在復(fù)雜環(huán)境下取得了顯著的性能提升。RGPNet由一個(gè)輕量級(jí)的非對(duì)稱編碼器-解碼器和一個(gè)適配器組成。適配器有助于從編碼器和解碼器之間的多層分布式表示中保留和細(xì)化抽象概念。它也有助于從較深層到較淺層的梯度流動(dòng)。大量實(shí)驗(yàn)表明,與目前最先進(jìn)的語(yǔ)義分割網(wǎng)絡(luò)相比,RGPNet具有更好的性能。
此外還證明了在保持性能的同時(shí),使用改進(jìn)的標(biāo)簽松弛技術(shù)和逐步調(diào)整大小可以減少60%的訓(xùn)練時(shí)間。論文還對(duì)應(yīng)用在資源受限的嵌入式設(shè)備上的RGPNet進(jìn)行了優(yōu)化,使推理速度提高了400%,性能損失可以忽略不計(jì)。RGPNet在多個(gè)數(shù)據(jù)集之間獲得了更好的速度和精度權(quán)衡。
二、創(chuàng)新點(diǎn)
1、提出的RGPNet作為一種通用的實(shí)時(shí)語(yǔ)義分割體系結(jié)構(gòu),它可以在單分支網(wǎng)絡(luò)中獲得高分辨率的深層特征,從而提高準(zhǔn)確性和降低延遲,在復(fù)雜的環(huán)境中具有競(jìng)爭(zhēng)力。
2、引入一個(gè)適配器模塊來(lái)捕獲多個(gè)抽象級(jí)別,以幫助細(xì)分的邊界細(xì)化,適配器還通過(guò)添加較短的路徑來(lái)輔助漸變梯度流。
3、對(duì)于green AI,在訓(xùn)練期間采用漸進(jìn)式調(diào)整大小技術(shù),從而使訓(xùn)練時(shí)間和環(huán)境影響減少60%,并且采用一種改進(jìn)的標(biāo)簽松弛來(lái)消除低分辨率標(biāo)簽映射中的混疊效應(yīng)。
4、使用TensorRT(一個(gè)高性能深度學(xué)習(xí)推理平臺(tái))優(yōu)化RGPNet,以便部署在邊緣計(jì)算設(shè)備上,從而使推理速度提高400%。
5、RGPNet在Cityscpes、CamVid和Mapillary數(shù)據(jù)集上分別實(shí)現(xiàn)了Resnet-101作為backbone 下80.9%、69.2%和50.2% mIoU以及Resnet-18作為backbone下74.1%、66.9%和41.7% mIoU。對(duì)于1024×2048分辨率的圖像,RGPNet在CityScapes數(shù)據(jù)集上單NVIDIA GTX2080Ti GPU下達(dá)到37.4 FPS。
三、網(wǎng)絡(luò)結(jié)構(gòu)
RGPNet的整體結(jié)構(gòu)如下所示,每個(gè)箭頭都有對(duì)應(yīng)的操作模式:
- 中間一列操作為編碼器
- 最右邊操作為解碼器
- “+”操作為適配器(Adaptor)
其中“+”詳細(xì)操作如下所示:
1、T(:)是一個(gè)轉(zhuǎn)換函數(shù),它用來(lái)減少編碼器模塊輸出通道數(shù)量并將其傳輸?shù)絘daptor。
2、D(:)和U(:)是下采樣和上采樣功能。
Adaptor有許多優(yōu)點(diǎn):
1、Adaptor聚合來(lái)自不同上下文和空間級(jí)別的特征。
2、通過(guò)引入較短的路徑,有助于梯度從較深的層流向較淺的層。
3、Adaptor允許使用輕量解碼器的不對(duì)稱設(shè)計(jì),這將減少卷積層,進(jìn)一步增強(qiáng)梯度流。因此,Adaptor使網(wǎng)絡(luò)適合于實(shí)時(shí)應(yīng)用,因?yàn)樗诒A艨臻g信息的同時(shí)提供了豐富的語(yǔ)義信息。
針對(duì)帶標(biāo)簽松弛的漸進(jìn)式調(diào)整:
論文采取了最大化像素周圍區(qū)域相似度分布,而不是單個(gè)像素級(jí)別的標(biāo)簽最大可能化,針對(duì)邊界類別,提出了邊界損失函數(shù)。
四、實(shí)驗(yàn)結(jié)果
多種網(wǎng)絡(luò)在Mapillary Vistas數(shù)據(jù)集上的測(cè)試結(jié)果:
幾種網(wǎng)絡(luò)在Mapillary Vistas數(shù)據(jù)集上的性能對(duì)比:
在CamVid數(shù)據(jù)集上的性能對(duì)比:
RGPNet使用TensorRT在GTX2080Ti和Xavier上速度對(duì)比:
綜合速度和準(zhǔn)確率以及實(shí)際部署下的性能,RGPNet都非常具有競(jìng)爭(zhēng)力~!
推薦閱讀
重點(diǎn)介紹:1、3D視覺(jué)算法;2、vslam算法;3、圖像處理;4、深度學(xué)習(xí);5、自動(dòng)駕駛;6、技術(shù)干貨。博主及合伙人分別來(lái)國(guó)內(nèi)自知名大廠、海康研究院,深研3D視覺(jué)、深度學(xué)習(xí)、圖像處理、自動(dòng)駕駛、目標(biāo)檢測(cè)、VSLAM算法等領(lǐng)域。
歡迎關(guān)注微信公眾號(hào)
審核編輯:符乾江
-
人工智能
+關(guān)注
關(guān)注
1804文章
48503瀏覽量
245277 -
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
9文章
1705瀏覽量
46498
發(fā)布評(píng)論請(qǐng)先 登錄
標(biāo)準(zhǔn)網(wǎng)絡(luò)時(shí)鐘系統(tǒng):數(shù)字時(shí)代的通用語(yǔ)法
SparseViT:以非語(yǔ)義為中心、參數(shù)高效的稀疏化視覺(jué)Transformer

【AIBOX應(yīng)用】通過(guò) NVIDIA TensorRT 實(shí)現(xiàn)實(shí)時(shí)快速的語(yǔ)義分割

利用VLM和MLLMs實(shí)現(xiàn)SLAM語(yǔ)義增強(qiáng)

復(fù)雜環(huán)境下多無(wú)人智能車輛協(xié)同調(diào)控

使用語(yǔ)義線索增強(qiáng)局部特征匹配

純凈IP:構(gòu)建可信網(wǎng)絡(luò)環(huán)境的基石
手冊(cè)上新 |迅為RK3568開(kāi)發(fā)板NPU例程測(cè)試
語(yǔ)義分割25種損失函數(shù)綜述和展望

評(píng)論