一、介紹
我們的方法稱為 Mask R-CNN,擴展了 Faster RCNN ,方法是在每個感興趣區域 (RoI) 上添加一個用于預測分割掩碼的分支,與用于分類和邊界框回歸的現有分支并行(圖 1)。掩碼分支是應用于每個 RoI 的小型 FCN,以像素到像素的方式預測分割掩碼。鑒于 Faster R-CNN 框架,Mask R-CNN 易于實現和訓練,這有助于廣泛的靈活架構設計。此外,掩碼分支僅增加了少量計算開銷,從而實現了快速系統和快速實驗。原則上,Mask R-CNN 是 Faster R-CNN 的直觀擴展,但正確構建 mask 分支對于獲得良好結果至關重要。最重要的是,Faster R-CNN 并不是為網絡輸入和輸出之間的像素到像素對齊而設計的。這在 RoIPool(處理實例的事實上的核心操作)如何為特征提取執行粗略空間量化時最為明顯。為了解決錯位問題,我們提出了一個簡單的、無量化的層,稱為 RoIAlign,它忠實地保留了精確的空間位置。盡管是一個看似很小的變化,但 RoIAlign 具有很大的影響:它將掩模準確度提高了 10% 到 50%,在更嚴格的定位指標下顯示出更大的收益。其次,我們發現解耦掩碼和類別預測至關重要:我們獨立地為每個類別預測一個二進制掩碼,沒有類別之間的競爭,并依靠網絡的 RoI 分類分支來預測類別。相比之下,FCN 通常執行逐像素多類分類,將分割和分類結合起來,并且根據我們的實驗,實例分割效果不佳。
圖 1. 用于實例分割的 Mask R-CNN 框架
圖 2. 在 COCO 測試集上的 Mask R-CNN 結果。這些結果基于 ResNet-101,實現了 35.7 的掩碼 AP 并以 5 fps 運行。掩碼以顏色顯示,并且還顯示了邊界框、類別和置信度.
作為一個通用框架,Mask R-CNN 與為檢測/分割開發的互補技術兼容,正如過去幾年在 Fast/Faster R-CNN 和 FCN 中廣泛見證的那樣。這份手稿還描述了一些改進了我們在 中發表的原始結果的技術。由于其通用性和靈活性,Mask R-CNN 被 COCO 2017 實例分割競賽的三個獲勝團隊用作框架(圖2),均顯著優于之前的最新技術。我們已經發布了代碼以促進未來的研究。
二、MASK R-CNN
Mask R-CNN 在概念上很簡單:Faster R-CNN 對每個候選對象有兩個輸出,一個類標簽和一個邊界框偏移量;為此,我們添加了輸出對象掩碼的第三個分支。因此,Mask R-CNN 是一個自然而直觀的想法。但是額外的掩碼輸出與類和框輸出不同,需要提取更精細的對象空間布局。接下來,我們介紹 Mask R-CNN 的關鍵元素,包括像素到像素對齊,這是 Fast/Faster R-CNN 的主要缺失部分。更快的 R-CNN。我們首先簡要回顧一下 Faster R-CNN 檢測器 。Faster R-CNN 由兩個階段組成。第一階段,稱為區域提議網絡,提出候選對象邊界框。第二階段,本質上是 Fast R-CNN,使用 RoIPool 從每個候選框中提取特征,并執行分類和邊界框回歸。兩個階段使用的特征可以共享以加快推理速度。掩碼 R-CNN。Mask R-CNN 采用相同的兩階段程序,具有相同的第一階段(即 RPN)。在第二階段,在預測類和框偏移的同時,Mask R-CNN 還為每個 RoI 輸出一個二進制掩碼。這與最近的系統形成對比,其中分類取決于掩碼預測。我們的方法遵循了 Fast R-CNN 的原則,它并行應用邊界框分類和回歸(結果證明這在很大程度上簡化了原始 R-CNN的多階段管道)。
為了解決量化時引入 RoI 和提取的特征之間的錯位,我們提出了一個 RoIAlign 層,它消除了 RoIPool 的苛刻量化,將提取的特征與輸入正確對齊。我們提出的改變很簡單:我們避免對 RoI 邊界或 bin 進行任何量化(即,我們使用 x/16 而不是 [x/16])。我們使用雙線性插值來計算每個 RoI 箱中四個定期采樣位置的輸入特征的精確值,并聚合結果(使用最大值或平均值)。請參見圖 3 了解我們的實現細節。我們注意到,只要沒有對所涉及的任何坐標進行量化,結果對四個采樣點在 bin 中的位置或采樣的點數不敏感。
圖3.RoIAlign 的實現:虛線網格是在其上執行 RoIAlign 的特征圖,實線表示 RoI(在此示例中具有 2?2 個 bin),點表示每個 bin 內的 4 個采樣點。每個采樣點的值是通過特征圖上附近網格點的雙線性插值計算的。不對任何涉及 RoI、其 bin 或采樣點的坐標執行量化。.使用原始輸出反饋(RF)和模式相似性生物反饋(PSB)進行訓練的假設效果。聚類表示與投影到2D子空間(即,在步驟1中創建的訓練空間)上的運動類相關聯的多維數據(特征)集合。C1已經用這兩種方法進行了再培訓(結果是C1Rf和C1OB)。
對于網絡頭,我們密切遵循之前工作中提出的架構,我們在其中添加了一個完全卷積的掩碼預測分支。具體來說,我們從 ResNet 和 FPN 論文中擴展了 Faster R-CNN 盒頭。詳細信息如圖 4 所示。ResNetC4 主干上的頭部包括 ResNet 的第 5 階段(即 9 層“res5”),這是計算密集型的。對于 FPN,主干已經包含 res5,因此允許使用更少過濾器的更高效的頭部。
圖4. 頭部架構
MNC 和 FCIS分別是 COCO 2015 和 2016 細分挑戰賽的獲勝者。沒有花里胡哨的東西,Mask R-CNN 優于更復雜的 FCIS+++,其中包括多尺度訓練/測試、水平翻轉測試和 OHEM。所有條目都是單模型結果。
我們將 Mask R-CNN 與表 1 中實例分割中的最先進方法進行了比較。我們模型的所有實例都優于先前最先進模型的基線變體。
Mask R-CNN 輸出在圖 2 和圖 5 中可視化。即使在具有挑戰性的條件下,Mask R-CNN 也能取得良好的效果。在圖 6 中,我們比較了我們的 Mask R-CNN 基線和 FCIS+++ 。FCIS+++ 在重疊實例上表現出系統性偽影,這表明它受到實例分割基本困難的挑戰。Mask R-CNN 沒有顯示出這樣的偽影。
圖 5. Mask R-CNN 在 COCO 測試圖像上的更多結果,使用 ResNet-101-FPN,以 5 fps 運行,具有 35.7 mask AP
圖 6. FCIS+++(上)與 Mask R-CNN(下,ResNet-101-FPN)。FCIS 在重疊對象上展示系統偽影。
三、 實驗:實例分割
我們在 trainval35k 上進行訓練,在 minival 上進行測試,并報告 mask AP,除非另有說明
表 2a 顯示了具有各種主干的 Mask R-CNN。在表 2b 中,我們將其與使用每像素 softmax 和多項損失(如 FCN 中常用的)進行比較。這種替代方案將掩碼和類別預測的任務結合起來,并導致掩碼 AP 的嚴重損失(5.5 分)。這表明,一旦實例被分類為一個整體(通過框分支),就足以預測二進制掩碼而無需考慮類別,這使得模型更容易訓練。 我們提出的 RoIAlign 層的評估如表 2c 所示。對于這個實驗,我們使用 ResNet50-C4 主干,步長為 16。
我們將 Mask R-CNN 與表 3 中最先進的 COCO 邊界框目標檢測進行了比較。對于這個結果,即使訓練了完整的 Mask R-CNN 模型,也只使用了分類和框輸出推理(掩碼輸出被忽略)。使用 ResNet-101-FPN 的 Mask R-CNN 優于所有先前最先進模型的基本變體,包括 G-RMI 的單模型變體,它是 COCO 2016 檢測挑戰賽的獲勝者。使用 ResNeXt-101-FPN,Mask R-CNN 進一步改進了結果,與 (使用 Inception-ResNetv2-TDM)的最佳先前單個模型條目相比,框 AP 的邊距為 3.0 點。
每行顯示一個額外的組件遞增到上面的行
Mask R-CNN 是一個通用框架,并且與在許多其他檢測/分割系統中看到的正交改進兼容。為了完整起見,我們在表 4 中報告了 Mask RCNN 的一些高級結果。此表中的結果可以通過我們發布的代碼 (https://github.com/facebookresearch/Detectron) 重現,這可以作為未來研究的更高基線。
總體而言,我們實現的改進總共實現了 5.1 點掩碼 AP(從 36.7 到 41.8)和 7.7 點盒子 AP(從 39.6 到 47.3)增加。通常,改進的每個組件都一致地增加了 mask AP 和 box AP,顯示了 Mask RCNN 作為框架的良好泛化。我們從具有不同超參數集的更新基線開始。我們將訓練延長到 180k 次迭代,其中在 120k 和 160k 次迭代時學習率降低了 10。我們還將 NMS 閾值更改為 0.5(默認值為 0.3)。更新后的基線有 37.0 mask AP 和 40.5 box AP。
四、 關鍵點估計與實景監測
我們的 (ResNet-50-FPN) 是一個以 5 fps 運行的單一模型。CMU-Pose+++ 是 2016 年競賽的獲勝者,它使用多尺度測試、使用 CPM 進行后處理,并使用對象檢測器進行過濾,增加了累積的 5 分(在個人交流中澄清)。y:G-RMI 在 COCO plus MPII (25k 圖像)上進行訓練,使用兩個模型(Inception-ResNet-v2 用于邊界框檢測,ResNet-101 用于關鍵點)。
圖 7. 使用 Mask R-CNN (ResNet-50-FPN) 在 COCO 測試中的關鍵點檢測結果,以及從同一模型預測的人分割掩碼。該模型的關鍵點 AP 為 63.1,運行速度為 5 fps
更重要的是,我們有一個統一的模型,可以同時預測框、段和關鍵點,同時以 5 fps 運行。添加一個段分支(針對人員類別)在 test-dev 上將 APkp 提高到 63.1(表 5)。更多關于 minival 的多任務學習消融在表 6 中。將掩碼分支添加到僅盒子(即 Faster R-CNN)或僅關鍵點版本持續改進了這些任務。然而,添加關鍵點分支會略微減少框/掩碼 AP,這表明雖然關鍵點檢測受益于多任務訓練,但它反過來并不能幫助其他任務。然而,聯合學習所有三個任務使統一系統能夠同時有效地預測所有輸出(圖 7)。Cityscapes 的示例結果如圖 8 所示。
圖 8. 在 Cityscapes 測試(32.0 AP)上的 Mask R-CNN 結果。右下角的圖像顯示了故障預測。
五、結論
我們提出了一個簡單而有效的實例分割框架,該框架在邊界框檢測方面也顯示出良好的結果,并且可以擴展到姿態估計。我們希望這個框架的簡單性和通用性將有助于未來對這些和其他實例級視覺識別任務的研究。
原文標題:【AI+機器人】Mask-CNN 一種目標識別與實例分割算法
文章出處:【微信公眾號:機器視覺智能檢測】歡迎添加關注!文章轉載請注明出處。
審核編輯:湯梓紅
-
框架
+關注
關注
0文章
403瀏覽量
17543 -
分割
+關注
關注
0文章
17瀏覽量
11920 -
mask
+關注
關注
0文章
10瀏覽量
2939
原文標題:【AI+機器人】Mask-CNN 一種目標識別與實例分割算法
文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
什么是Mask R-CNN?Mask R-CNN的工作原理
引入Mask R-CNN思想通過語義分割進行任意形狀文本檢測與識別
手把手教你操作Faster R-CNN和Mask R-CNN
FAIR何愷明、Ross等人最新提出實例分割的通用框架TensorMask
Facebook AI使用單一神經網絡架構來同時完成實例分割和語義分割
![Facebook AI使用單一神經網絡架構來同時完成<b class='flag-5'>實例</b><b class='flag-5'>分割</b>和語義<b class='flag-5'>分割</b>](https://file.elecfans.com/web1/M00/8F/71/pIYBAFy9OS2AXtmuAAAiWsGVBaE545.png)
一種基于Mask R-CNN的人臉檢測及分割方法
![一種基于<b class='flag-5'>Mask</b> <b class='flag-5'>R-CNN</b>的人臉檢測及<b class='flag-5'>分割</b>方法](https://file.elecfans.com/web1/M00/E8/BB/pIYBAGBlM5uAWH5-AAHRX5rrBh8066.png)
基于Mask R-CNN的遙感圖像處理技術綜述
深度學習部分監督的實例分割環境
3D視覺技術內容理解領域的研究進展
PyTorch教程14.8之基于區域的CNN(R-CNN)
![PyTorch教程14.8之基于區域的<b class='flag-5'>CNN</b>(<b class='flag-5'>R-CNN</b>)](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
評論