FAIR何愷明、Ross等人最新提出實例分割的通用框架TensorMask,首次在定性和定量上都接近于 Mask R-CNN 框架,為探索密集實例分割方法提供基礎(chǔ)。
現(xiàn)代實例分割方法主要是先檢測對象邊界框,然后進(jìn)行裁剪和分割,Mask R-CNN是目前這類方法中最優(yōu)秀的。
近日,來自FAIR的陳鑫磊、Ross Girshick、何愷明、Piotr Dollar等人發(fā)表一篇新論文“TensorMask: A Foundation for Dense Object Segmentation”,從一個新的方向解決實例分割問題,并提出了一個名為TensorMask的通用框架。
論文地址:
https://arxiv.org/pdf/1903.12174.pdf
作者表示,TensorMask達(dá)到了與Mask R-CNN相當(dāng)?shù)慕Y(jié)果,有助于更全面地理解這項任務(wù)。
Ross Girshick、何愷明、Piotr Dollar三人也是Mask R-CNN的作者,一作陳鑫磊博士畢業(yè)于CMU,導(dǎo)師是Tom Mitchell教授,并曾在谷歌云AI李飛飛、李佳的指導(dǎo)下實習(xí)。
TensorMask:將實例分割視為4D張量預(yù)測
在密集、規(guī)則的網(wǎng)格上生成邊界框?qū)ο箢A(yù)測的滑動窗口目標(biāo)檢測器(sliding-window object detectors)已經(jīng)得到迅速發(fā)展,并得到了廣泛的應(yīng)用。
與此相反,現(xiàn)代的實例分割方法主要是先檢測對象邊界框,然后進(jìn)行裁剪和分割,Mask R-CNN推廣了這種方法。
在這項工作中,我們研究了密集滑動窗口實例分割(dense sliding-window instance segmentation)的范例,令人驚訝的是,這方面的研究十分不足。
我們的核心發(fā)現(xiàn)是,這項任務(wù)與其他的密集預(yù)測任務(wù)(如語義分割或邊界框?qū)ο髾z測)有本質(zhì)的不同,因為每個空間位置的輸出本身就是一個幾何結(jié)構(gòu),具有自己的空間維度。
為了形式化地說明這一點,我們將密集實例分割視為一個4D張量(4D tensors)的預(yù)測任務(wù),并提出了一個名為TensorMask的通用框架,該框架顯式地捕獲這種幾何圖形,并支持對4D tensors使用新的操作符。
圖1:TensorMask的輸出。我們將密集實例分割作為一種基于結(jié)構(gòu)化4D張量的預(yù)測任務(wù)。除了獲得具有競爭力的定量結(jié)果,TensorMask還獲得了定性上合理的結(jié)果。圖中小的和大的物體都被很好地描繪出來,并且,重疊的物體也被正確地處理了。
我們證明了tensor這種想法可以相比baseline獲得較大的增益,并且可以得到與Mask R-CNN相當(dāng)?shù)慕Y(jié)果。這些結(jié)果表明,TensorMask可以作為密集掩碼預(yù)測的新進(jìn)展的基礎(chǔ),有助于更全面地理解這項任務(wù)。我們將發(fā)布本研究的代碼。
彌補(bǔ)差距:實例分割中的密集方法
滑動窗口(sliding-window)范例——通過查看放置在一組密集圖像位置上的每個窗口來查找對象——是計算機(jī)視覺中最早、也是最成功的概念之一,并且這個概念自然地與卷及網(wǎng)絡(luò)相關(guān)。
然而,盡管目前性能最好的對象檢測器依賴于滑動窗口預(yù)測來生成初始候選區(qū)域,但獲得更準(zhǔn)確的預(yù)測主要來自對這些候選區(qū)域進(jìn)行細(xì)化的階段,如Faster R-CNN和Mask R-CNN,分別用于邊界框目標(biāo)檢測和實例分割。這類方法已經(jīng)主導(dǎo)了COCO目標(biāo)檢測挑戰(zhàn)賽。
近年來,諸如SSD和RetinaNet之類的邊界框目標(biāo)檢測器,避開了“細(xì)化”這個步驟,專注于直接的滑動窗口預(yù)測,已經(jīng)有了復(fù)蘇的趨勢,并顯示出有希望的結(jié)果。
相比之下,該領(lǐng)域在密集滑動窗口實例分割方面并沒有取得同等的進(jìn)展;對于mask prediction,沒有類似于SSD / RetinaNet這樣的直接、密集的方法。
為什么密集的方法在邊界框檢測方面進(jìn)展迅速,而在實例分割方面卻完全缺失?這是一個基本科學(xué)上的問題。這項工作的目標(biāo)就是彌補(bǔ)這一差距,并為探索密集實例分割方法提供基礎(chǔ)。
我們的主要觀點是,定義dense mask representations的核心概念,以及這些概念在神經(jīng)網(wǎng)絡(luò)中的有效實現(xiàn),都是缺乏的。
與邊界框不同,邊界框具有固定的低維表示而不考慮比例,分割掩碼(segmentation masks)可以從更豐富、更結(jié)構(gòu)化的表示中獲益。例如,每個mask本身是一個2D空間映射,較大對象的mask可以受益于較大空間映射的使用。為dense masks開發(fā)有效的表示是實現(xiàn)密集實例分割的關(guān)鍵步驟。
為了解決這個問題,我們定義了一組用高維張量表示mask的核心概念,這些概念允許探索用于dense mask prediction的新穎網(wǎng)絡(luò)架構(gòu)。為了證明所提出的表示的優(yōu)點,我們提出了幾個這樣的網(wǎng)絡(luò)并進(jìn)行了實驗。
我們的框架稱為TensorMask,它建立了第一個密集滑動窗口實例分割系統(tǒng),其結(jié)果接近于Mask R-CNN。
左:自然表示。右:對齊表示(Aligned representation)。
TensorMask表示的核心想法是使用結(jié)構(gòu)化的4D tensors表示空間域上的mask。
與以前的面向通道的方法不同,我們建議利用形狀(V, U, H, W)的4D tensors,其中(H, W)表示目標(biāo)位置,(V, U)表示對應(yīng)的mask的位置,它們都是幾何子張量,也就是說,它們的軸有明確定義的units和關(guān)于圖像的幾何意義。
這種從非結(jié)構(gòu)化通道軸上的encoding masks到使用結(jié)構(gòu)化幾何子張量的視角轉(zhuǎn)變,使得定義新的操作和網(wǎng)絡(luò)架構(gòu)成為可能。這些網(wǎng)絡(luò)可以以幾何上有意義的方式直接作用于(V, U)子張量,包括坐標(biāo)變換、up-/downscaling和金字塔的使用。
在TensorMask框架的支持下,我們在一個4D tensors的標(biāo)度索引列表上建立了一個金字塔結(jié)構(gòu),我們稱之為張量雙金字塔( tensor bipyramid)。與特征金字塔類似,tensor bipyramid是一個多尺度特征映射列表,它包含一個形狀為2kV、2ku、12kh、12kw的4D張量列表,其中k≥0個索引尺度。這種結(jié)構(gòu)在(H, W)和(V, U)幾何子張量上都呈金字塔形狀,但方向相反。這種設(shè)計捕捉了大對象具有粗糙空間定位的高分辨率mask(大k)和小對象具有精細(xì)空間定位的低分辨率mask(小k)的理想特性。
feature pyramid和tensor bipyramid的比較
我們將這些組件組合成一個網(wǎng)絡(luò)骨干和訓(xùn)練程序,類似RetinaNet,其中我們的dense mask predictor擴(kuò)展了原始的密集邊界框預(yù)測器。
通過詳細(xì)的消融實驗,我們評估了TensorMask框架的有效性,并證明了明確捕捉該任務(wù)的幾何結(jié)構(gòu)的重要性。最后,我們展示了TensorMask與對應(yīng)的Mask R-CNN產(chǎn)生了相似的結(jié)果(見圖1和圖2)。
TensorMask的架構(gòu)
TensorMask框架的核心思想是使用結(jié)構(gòu)化的高維張量來表示一組密集滑動窗口中的圖像內(nèi)容(例如masks)。
圖2:使用ResNet-101-FPN骨干的TensorMask和Mask R-CNN的示例結(jié)果(與圖6中使用的Mask R-CNN的圖像相同)。結(jié)果在定量和質(zhì)量上都很相似,表明密集滑動窗口范式確實可以有效地用于實例分割任務(wù)。請讀者猜猜哪些結(jié)果是TensorMask生成的(答案見文末)。
TensorMask架構(gòu)
我們已經(jīng)展示了采用TensorMask representations的模型。這些模型有一個在滑動窗口中生成masks的mask prediction head,以及一個用于預(yù)測對象類別的classification head,類似于滑動窗口目標(biāo)檢測器中的box regression和classification heads。
實驗和結(jié)果
我們報告了COCO實例分割的結(jié)果。所有的模型都在~118k train2017圖像上進(jìn)行訓(xùn)練,并在5k val2017圖像上進(jìn)行測試。最終結(jié)果在test-dev上。我們使用COCO mask的平均精度(用AP表示)。box AP用APbb表示。
TensorMask表示
首先,我們研究了使用V =U=15和ResNet-50-FPN骨干的mask的各種張量表示。表2報告了定量結(jié)果,圖2和圖9顯示了定性比較。
表2
與Mask R-CNN的比較
表3總結(jié)了test-dev上最好的TensorMask模型,并將其與當(dāng)前用于COCO實例分割的主流方法Mask RCNN進(jìn)行了比較。
表3
如上表所示,最好的TensorMask在test-dev上達(dá)到了35.5 mask AP,接近于mask R-CNN的36.8。
在ResNet-101中,TensorMask實現(xiàn)了37.3 mask AP,與mask R-CNN相比只有1.0 AP差距。
這些結(jié)果表明,密集滑動窗口方法可以縮小與“先檢測后分割”方法的差距。定性結(jié)果如圖2、10、11所示。
結(jié)論
TensorMask是一個dense sliding-window實例分割框架,首次在定性和定量上都接近于Mask R-CNN框架。TensorMask為實例分割研究建立了一個概念互補(bǔ)的方向。
(圖2答案:第一行是Mask R-CNN的結(jié)果,第二行是TensorMask的結(jié)果。)
-
檢測器
+關(guān)注
關(guān)注
1文章
882瀏覽量
48268 -
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4797瀏覽量
102316 -
AI
+關(guān)注
關(guān)注
87文章
33554瀏覽量
274191
原文標(biāo)題:何愷明等最新論文:實例分割全新方法TensorMask,效果比肩 Mask R-CNN
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
圖像分割基礎(chǔ)算法及實現(xiàn)實例

何愷明、Ross Girshick等大神深夜扔出“炸彈”:ImageNet預(yù)訓(xùn)練并非必須
FAIR何愷明團(tuán)隊最新論文提出“全景FPN”,聚焦于圖像的全景分割任務(wù)
李飛飛等人提出Auto-DeepLab:自動搜索圖像語義分割架構(gòu)
何愷明等人再出重磅新作:分割任務(wù)的TensorMask框架
FAIR何愷明團(tuán)隊近日發(fā)表神經(jīng)結(jié)構(gòu)搜索NAS方面的最新力作

Facebook AI使用單一神經(jīng)網(wǎng)絡(luò)架構(gòu)來同時完成實例分割和語義分割

深度學(xué)習(xí)部分監(jiān)督的實例分割環(huán)境
用于實例分割的Mask R-CNN框架
基于X光圖片的實例分割垃圾數(shù)據(jù)集WIXRay (Waste Item X- Ray)
用于弱監(jiān)督大規(guī)模點云語義分割的混合對比正則化框架
基于通用的模型PADing解決三大分割任務(wù)

基于SAM實現(xiàn)自動分割遙感圖像實例

評論