完结小说排行榜,玄幻小说排行榜,辰东全部小说

FAIR何愷明、Ross等人最新提出實例分割的通用框架TensorMask，首次在定性和定量上都接近于 Mask R-CNN 框架，為探索密集實例分割方法提供基礎。

現(xiàn)代實例分割方法主要是先檢測對象邊界框，然后進行裁剪和分割，Mask R-CNN是目前這類方法中最優(yōu)秀的。

近日，來自FAIR的陳鑫磊、Ross Girshick、何愷明、Piotr Dollar等人發(fā)表一篇新論文“TensorMask: A Foundation for Dense Object Segmentation”，從一個新的方向解決實例分割問題，并提出了一個名為TensorMask的通用框架。

論文地址：

https://arxiv.org/pdf/1903.12174.pdf

作者表示，TensorMask達到了與Mask R-CNN相當?shù)慕Y(jié)果，有助于更全面地理解這項任務。

Ross Girshick、何愷明、Piotr Dollar三人也是Mask R-CNN的作者，一作陳鑫磊博士畢業(yè)于CMU，導師是Tom Mitchell教授，并曾在谷歌云AI李飛飛、李佳的指導下實習。

TensorMask：將實例分割視為4D張量預測

在密集、規(guī)則的網(wǎng)格上生成邊界框?qū)ο箢A測的滑動窗口目標檢測器(sliding-window object detectors)已經(jīng)得到迅速發(fā)展，并得到了廣泛的應用。

與此相反，現(xiàn)代的實例分割方法主要是先檢測對象邊界框，然后進行裁剪和分割，Mask R-CNN推廣了這種方法。

在這項工作中，我們研究了密集滑動窗口實例分割(dense sliding-window instance segmentation)的范例，令人驚訝的是，這方面的研究十分不足。

我們的核心發(fā)現(xiàn)是，這項任務與其他的密集預測任務(如語義分割或邊界框?qū)ο髾z測)有本質(zhì)的不同，因為每個空間位置的輸出本身就是一個幾何結(jié)構，具有自己的空間維度。

為了形式化地說明這一點，我們將密集實例分割視為一個4D張量(4D tensors)的預測任務，并提出了一個名為TensorMask的通用框架，該框架顯式地捕獲這種幾何圖形，并支持對4D tensors使用新的操作符。

圖1：TensorMask的輸出。我們將密集實例分割作為一種基于結(jié)構化4D張量的預測任務。除了獲得具有競爭力的定量結(jié)果，TensorMask還獲得了定性上合理的結(jié)果。圖中小的和大的物體都被很好地描繪出來，并且，重疊的物體也被正確地處理了。

我們證明了tensor這種想法可以相比baseline獲得較大的增益，并且可以得到與Mask R-CNN相當?shù)慕Y(jié)果。這些結(jié)果表明，TensorMask可以作為密集掩碼預測的新進展的基礎，有助于更全面地理解這項任務。我們將發(fā)布本研究的代碼。

彌補差距：實例分割中的密集方法

滑動窗口(sliding-window)范例——通過查看放置在一組密集圖像位置上的每個窗口來查找對象——是計算機視覺中最早、也是最成功的概念之一，并且這個概念自然地與卷及網(wǎng)絡相關。

然而，盡管目前性能最好的對象檢測器依賴于滑動窗口預測來生成初始候選區(qū)域，但獲得更準確的預測主要來自對這些候選區(qū)域進行細化的階段，如Faster R-CNN和Mask R-CNN，分別用于邊界框目標檢測和實例分割。這類方法已經(jīng)主導了COCO目標檢測挑戰(zhàn)賽。

近年來，諸如SSD和RetinaNet之類的邊界框目標檢測器，避開了“細化”這個步驟，專注于直接的滑動窗口預測，已經(jīng)有了復蘇的趨勢，并顯示出有希望的結(jié)果。

相比之下，該領域在密集滑動窗口實例分割方面并沒有取得同等的進展；對于mask prediction，沒有類似于SSD / RetinaNet這樣的直接、密集的方法。

為什么密集的方法在邊界框檢測方面進展迅速，而在實例分割方面卻完全缺失？這是一個基本科學上的問題。這項工作的目標就是彌補這一差距，并為探索密集實例分割方法提供基礎。

我們的主要觀點是，定義dense mask representations的核心概念，以及這些概念在神經(jīng)網(wǎng)絡中的有效實現(xiàn)，都是缺乏的。

與邊界框不同，邊界框具有固定的低維表示而不考慮比例，分割掩碼(segmentation masks)可以從更豐富、更結(jié)構化的表示中獲益。例如，每個mask本身是一個2D空間映射，較大對象的mask可以受益于較大空間映射的使用。為dense masks開發(fā)有效的表示是實現(xiàn)密集實例分割的關鍵步驟。

為了解決這個問題，我們定義了一組用高維張量表示mask的核心概念，這些概念允許探索用于dense mask prediction的新穎網(wǎng)絡架構。為了證明所提出的表示的優(yōu)點，我們提出了幾個這樣的網(wǎng)絡并進行了實驗。

我們的框架稱為TensorMask，它建立了第一個密集滑動窗口實例分割系統(tǒng)，其結(jié)果接近于Mask R-CNN。

左：自然表示。右：對齊表示(Aligned representation)。

TensorMask表示的核心想法是使用結(jié)構化的4D tensors表示空間域上的mask。

與以前的面向通道的方法不同，我們建議利用形狀(V, U, H, W)的4D tensors，其中(H, W)表示目標位置，(V, U)表示對應的mask的位置，它們都是幾何子張量，也就是說，它們的軸有明確定義的units和關于圖像的幾何意義。

這種從非結(jié)構化通道軸上的encoding masks到使用結(jié)構化幾何子張量的視角轉(zhuǎn)變，使得定義新的操作和網(wǎng)絡架構成為可能。這些網(wǎng)絡可以以幾何上有意義的方式直接作用于(V, U)子張量，包括坐標變換、up-/downscaling和金字塔的使用。

在TensorMask框架的支持下，我們在一個4D tensors的標度索引列表上建立了一個金字塔結(jié)構，我們稱之為張量雙金字塔( tensor bipyramid)。與特征金字塔類似，tensor bipyramid是一個多尺度特征映射列表，它包含一個形狀為2kV、2ku、12kh、12kw的4D張量列表，其中k≥0個索引尺度。這種結(jié)構在(H, W)和(V, U)幾何子張量上都呈金字塔形狀，但方向相反。這種設計捕捉了大對象具有粗糙空間定位的高分辨率mask(大k)和小對象具有精細空間定位的低分辨率mask(小k)的理想特性。

feature pyramid和tensor bipyramid的比較

我們將這些組件組合成一個網(wǎng)絡骨干和訓練程序，類似RetinaNet，其中我們的dense mask predictor擴展了原始的密集邊界框預測器。

通過詳細的消融實驗，我們評估了TensorMask框架的有效性，并證明了明確捕捉該任務的幾何結(jié)構的重要性。最后，我們展示了TensorMask與對應的Mask R-CNN產(chǎn)生了相似的結(jié)果(見圖1和圖2)。

TensorMask的架構

TensorMask框架的核心思想是使用結(jié)構化的高維張量來表示一組密集滑動窗口中的圖像內(nèi)容(例如masks)。

圖2：使用ResNet-101-FPN骨干的TensorMask和Mask R-CNN的示例結(jié)果(與圖6中使用的Mask R-CNN的圖像相同)。結(jié)果在定量和質(zhì)量上都很相似，表明密集滑動窗口范式確實可以有效地用于實例分割任務。請讀者猜猜哪些結(jié)果是TensorMask生成的(答案見文末)。

TensorMask架構

我們已經(jīng)展示了采用TensorMask representations的模型。這些模型有一個在滑動窗口中生成masks的mask prediction head，以及一個用于預測對象類別的classification head，類似于滑動窗口目標檢測器中的box regression和classification heads。