好看的小说完本推荐,斗破苍穹续集,遮天辰东小说笔趣阁

隨著計算機視覺的發展，2D目標檢測在精度和速度方面已經得到了巨大的提升，并在各個領域取得了令人矚目的成績。但2D檢測卻忽視了物體的三維信息。目前的3D形狀預測研究主要基于合成數據集和當個目標的預測。

為了解決這一問題，來自Facebook的研究人員提出了Mesh R-CNN模型，可以從單張輸入圖像中檢測不同物體，并預測出每個物體對應的三角網格，將二維目標檢測的能力成功地拓展到了三維目標檢測和形狀預測。

三維目標檢測與形狀預測

近年來深度學習在三維形狀理解領域有了很大的提升，研究人員們利用神經網絡對體素、點云、網格等三維表示進行學習，推進了三維世界表示和理解的發展。但這些技術主要基于合成數據集進行開發和研究，缺乏復雜的形狀和條件，相比二維圖像的大型數據集還遠遠不夠。研究人員認為三維研究領域需要開發新的識別與理解系統，可以在非限制環境、復雜形狀、多物體以及光照條件變化的情境下穩定運行。

為了實現這一目標，研究人員開發了2D感知和3D形狀預測的方法，可以在單張RGB輸入的情況下實現目標檢測、實例分割以及目標3D三角網格預測的功能。這一方法基于Mask R-CNN改進而來，增加了網格預測分支來輸出高分辨的目標三角網格。這種方法預測出的網格不僅能夠捕捉不同的3D結構中，同時可以適用于不同的幾何復雜度。Mesh R-CNN克服了先前固定網格模板的形態預測方法，利用多種三維表示方法完成預測。

Mesh R-CNN首先預測出目標粗糙的體素、隨后轉換為網格并利用精確的網格預測分支進行優化，最后實現了對于任意幾何結構的精細預測。

Mesh R-CNN

這一研究的目標是通過單張圖像輸入，對圖像中的物體進行檢測、獲取不同物體的類別、掩膜和對應的三維網格，并對真實世界中的復雜模型進行有效處理。在2D深度網絡的基礎上，研究人員改進并提出了新的架構。

這一模型主要分為三個部分，包括了預測box和mask的檢測分支、預測體素的分支和mesh優化分支。受到RoIAlign的啟發，研究人員在網格預測中加入了VertAlign將輸入圖像與特征進行對應。

體素預測分支與box/mask預測分支的輸入相同，都使用了與圖像對齊的特征。模型最后將目標檢測、語義分割損失與網格預測損失結合起一同對網絡進行端到端的訓練和優化。Mesh R-CNN的核心是網格預測器，它將對齊的圖像特征進行輸入，并輸出目標的三維網格。與二維圖像的處理相似，研究人員同時也維護了特征在不同階段的對齊，包括區域和體素對應的對齊操作(RoIAlign和VertAlign)，并捕捉圖像中所有實例的3D形狀。

這意味著每一個預測出的網格都具有自己的拓撲結構(包括網格種類、一定數量的頂點、邊和面)以及幾何形狀。這一模型可以預測不同形狀和拓撲結構的網格。