3D點云學習( Point Clouds)作為近年來的研究熱點之一,受到了廣泛關注,每年在各大會議上都有大量的相關文章發表。當前,點云上的深度學習變得越來越流行,人們提出了許多方法來解決這一領域的不同問題。國防科技大學郭裕蘭老師課題組新出的這篇論文對近幾年點云深度學習方法進行了全面綜述,是第一篇全面涵蓋多個重要點云相關任務的深度學習方法的綜述論文,包括三維形狀分類、三維目標檢測與跟蹤、三維點云分割等,并對點云深度學習的機制和策略進行全面的歸納和解讀,幫助讀者更好地了解當前的研究現狀和思路。也提供了現有方法在幾個可公開獲得的數據集上的全面比較,最后也介紹了未來的研究方向。
對于3D點云,數據正在迅速增長。大有從2D向3D發展的趨勢,比如在opencv中就已經慢慢包含了3D點云的處理的相關模塊,在數據方面點云的獲取也是有多種渠道, 無論是源于CAD模型還是來自LiDAR傳感器或RGBD相機的掃描點云,無處不在。另外,大多數系統直接獲取3D點云而不是拍攝圖像并進行處理。因此,在深度學習大火的年代,應該如何應用這些令人驚嘆的深度學習工具,在3D點云上的處理上達到對二維圖像那樣起到很好的作用呢?
3D點云應用深度學習面臨的挑戰。首先在神經網絡上面臨的挑戰:
(1)非結構化數據(無網格):點云是分布在空間中的XYZ點。沒有結構化的網格來幫助CNN濾波器。
(2)不變性排列:點云本質上是一長串點(nx3矩陣,其中n是點數)。在幾何上,點的順序不影響它在底層矩陣結構中的表示方式,例如, 相同的點云可以由兩個完全不同的矩陣表示。如下圖所示:
(3)點云數量上的變化:在圖像中,像素的數量是一個給定的常數,取決于相機。然而,點云的數量可能會有很大的變化,這取決于各種傳感器。
在點云數據方面的挑戰:
(1)缺少數據:掃描的模型通常被遮擋,部分數據丟失。
(2)噪音:所有傳感器都是嘈雜的。有幾種類型的噪聲,包括點云擾動和異常值。這意味著一個點有一定的概率位于它被采樣的地方(擾動)附近的某一半徑范圍內,或者它可能出現在空間的任意位置(異常值)。
(3)旋轉:一輛車向左轉,同一輛車向右轉,會有不同的點云代表同一輛車。
點云學習近年來受到越來越多的關注,因為它在許多領域都有廣泛的應用,比如計算機視覺、自動駕駛和機器人技術。作為人工智能的主要技術之一,深度學習已經成功地用于解決各種二維視覺問題。然而,由于使用深度神經網絡處理點云所面臨的獨特挑戰,對點云的深度學習仍處于起步階段。最近,點云上的深度學習變得越來越流行,人們提出了許多方法來解決這一領域的不同問題。為了激發未來的研究,本文對點云深度學習方法的最新進展進行了綜述。它涵蓋了三個主要任務,包括三維形狀分類,三維目標檢測和跟蹤以及三維點云分割。我們還提供了一些可公開獲得的數據集的比較結果,以及有見地的觀察和啟發性的未來研究方向。
引言
3D數據在不同的領域有許多應用,包括自動駕駛、機器人、遙感、醫療和設計行業[4]。近年來,深度學習技術在計算機視覺、語音識別、自然語言處理(NLP)、生物信息學等研究領域占據主導地位。但是,在三維點云上進行深度學習仍然面臨數個重大挑戰[5],例如數據集規模小,維數高和三維點云的非結構化性質。在此基礎上,本文重點分析了用于處理三維點云的深度學習方法。
一些公開的數據集也被發布,例如ModelNet [6],ShapeNet [7],ScanNet [8],Semantic3D [9]和KITTI Vision Benchmark Suite[10]。這些數據集進一步推動了對三維點云的深度學習研究,提出了越來越多的方法來解決與點云處理相關的各種問題,包括三維形狀分類、三維目標檢測與跟蹤、三維點云分割等。
這篇論文是第一個專門針對點云的深度學習方法的綜述。此外,論文全面涵蓋了分類,檢測,跟蹤和分割等不同應用。圖1顯示了三維點云的現有深度學習方法的分類。
圖1:三維點云深度學習方法分類。
這項工作的主要貢獻可以概括如下:
· 1)據我們所知,這是第一篇全面涵蓋多個重要點云相關任務的深度學習方法的綜述論文,包括三維形狀分類、三維目標檢測與跟蹤、三維點云分割等。
·2)相對于已有的綜述[11],[12],我們特別關注三維點云的深度學習方法,而不是所有類型的三維數據。
· 3)本文介紹了點云深度學習的最新進展。因此,它為讀者提供了最先進的方法。
·4)提供了現有方法在幾個可公開獲得的數據集上的全面比較(例如,表1、2、3、4),并提供了簡要的總結和深入的討論。
本文的結構如下。第2節回顧了三維形狀分類的方法。第3節概述了現有的三維目標檢測和跟蹤方法。第4節介紹了點云分割的方法,包括語義分割、實例分割和部件分割。最后,第5節總結了論文。
論文還在以下網址上提供了定期更新的項目頁面:
https://github.com/QingyongHu/SoTA-Point-Cloud
圖2:三維形狀分類網絡的時間順序概覽。
圖3:PointNet的體系結構。
圖4:點的局部鄰居的連續和離散卷積的圖解。(a)代表一個局部鄰居;(b)和(c)分別表示三維連續卷積和離散卷積。
圖5:基于圖的網絡的圖解。
表1:在ModelNet10/40基準上比較三維形狀分類結果。這里,我們只關注基于點的網絡,“#params”表示相應模型的參數數量。“OA”表示總體精度,“mAcc”表示表中的平均精度。符號“-”表示結果不可用。
圖6:按時間順序概述的最相關的基于深度學習的三維目標檢測方法。
圖7:三類三維目標檢測方法的典型網絡。從上到下:(a)基于多視圖,(b)基于分割,(c)基于視錐的方法。
表2:在KITTI測試三維檢測基準上的三維目標檢測結果對比。
表3:在KITTI test BEV檢測基準上三維目標檢測結果對比。
圖8:按時間順序概述了一些最相關的基于深度學習的點云語義分割方法。
圖9:基于投影方法的中間表示圖。
圖10:PointNet++[27]框架的示意圖。
圖11:有代表性的三維點云實例分割方法的年代概述。
未來方向
表4展示了現有方法在公共基準測試上的結果,包括S3DIS[176]、Semantic3D[9]、ScanNet[102]、SemanticKITTI[177]。需要進一步研究的問題有:
·基于點的網絡是最常被研究的方法。然而,點表示自然不具有顯式的鄰近信息,現有的大多數基于點的方法不得不借助于昂貴的鄰近搜索機制(如KNN[52]或ball query [27])。這從本質上限制了這些方法的效率,因為鄰居搜索機制既需要很高的計算成本,又需要不規則的內存訪問[214]。
·從不平衡數據中學習仍然是點云分割中一個具有挑戰性的問題。雖然有幾種的方法取得了顯著的綜合成績[42]、[170]、[182],但它們在類標很少的情況下表現仍然有限。例如,RandLA-Net[95]在Semantic3D的reduced-8子集上獲得了76.0%的整體IoU,而在hardscape類上獲得了41.1%的非常低的IoU。
·大多數現有的方法[5]、[27]、[52]、[170]、[171]都適用于小點云(如1m*1m,共4096個點)。在實際中,深度傳感器獲取的點云通常是巨大的、大規模的。因此,有必要進一步研究大規模點云的有效分割問題。
·已有少數文獻[145]、[146]、[167]開始研究動態點云的時空信息。預期時空信息可以幫助提高后續任務的性能,如三維目標識別、分割和完成。
表4:S3DIS(包括Area5和6-fold cross validation)[176]、Semantic3D(包括semantic-8和reduced-8子集)[9]、ScanNet[8]和SemanticKITTI[177]數據集的語義分割結果對比。
結論
本文介紹了最先進的三維理解方法,包括三維形狀分類,三維目標檢測和跟蹤,以及三維場景和目標分割。對這些方法進行了全面的分類和性能比較。介紹了各種方法的優缺點,并提出了今后的研究方向。
作者:Yulan Guo, Hanyun Wang, Qingyong Hu, Hao Liu, Li Liu, and Mohammed Bennamoun
審核編輯:郭婷
-
計算機
+關注
關注
19文章
7551瀏覽量
88761 -
自動駕駛
+關注
關注
785文章
13953瀏覽量
167143 -
深度學習
+關注
關注
73文章
5520瀏覽量
121626
原文標題:3D點云分割、目標檢測、分類
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論