激光雷達在自動駕駛、無人機和機器人領域受到越來越多的關注,對于點云的分類、檢測和分割的視覺任務也在高速發展。但由于激光雷達產生的點云十分稀疏且不規則,圖像領域的方法無法有效地拓展到三維點云的分析和處理中。
為了有效處理這一問題,來自香港中文大學和商湯的研究人員們通過對目標的部分感知和聚合對點云特征進行抽取和分析,提出了可以精確預測目標內部相對位置并給出三維候選框的網絡架構;同時利用可差分的ROI-aware池化和點云聚合網絡對內部信息進行提取和聚合;最后在目標內部各部分空間相關信息的輔助下實現了高效的三維點云目標檢測算法Part-A^2 Net(Part-Aware and Aggregation)。
圖中可以看到預測出的結果不僅包含了每個框的坐標,目標內部點的顏色還表示了每個點的相對位置,對于提高目標檢測的性能十分重要。
目前的三維檢測算法主要集中在以下幾個方法。
一類方法將點云投影到鳥瞰視圖下并利用2D的卷積網絡進行特征抽取從而實現三維目標檢測;
另一類方法則將三維空間劃分為規則的體素,并利用三維(稀疏)卷積進行特征抽取;
還有的方法利用點云與圖像結合,在二維圖像中檢測出目標bbox隨后利用PointNet基于2D結果對點云進行裁剪和處理并獲取三維框。
但這些方法都會受到來自投影過程、體素量化過程或2D目標檢測器造成信息損失的影響,無法精確有效地進行三維點云的目標檢測。為了更有效地處理三維點云,研究人員們開始嘗試直接從點云中抽取特征生成3D候選框,利用三維bbox標注直接生成對前景和背景進行有效分離的標簽。在此過程中研究人員發現三維bbox不僅提供了分割的標簽,同時還精確地給出了目標內部各部分精確的相對位置。
與二維圖像中會相互遮擋的物體不同,三維點云中的物體都是天然分離的,使得三維目標內部各個部分的相對位置可以精確獲取,這些方法將有效提高目標檢測方法的性能。基于這樣的觀察結果,研究人員提出了一個部分感知和聚合的網絡結構來進行三維點云目標檢測。
研究人員從三維標注數據獲得的目標內部各部分的相對位置標簽和分割標簽來輔助三維候選框的生成過程,隨后對每個候選框內的3D目標部分位置進行聚合來為bbox評分并對框的位置進行優化。這種方法為點云處理提供了新的視角,并幫助算法在目標檢測中取得更好的結果。
上圖中可以看到算法分為了兩個主要的部分,部分感知模塊用于精確估計目標內部各個部分/點間的相對位置,同時給出三維的候選框;聚合部分針對每個候選框內的點進行ROI池化和分組,實現特征抽??;隨后利用聚合網絡來對框進行評測并給予內部的相對空間信息對位置進行優化。
估計對象內各部分的位置
為了有效分離出點云中的前景和背景并預測出對象內部各部分的相對位置,需要從點云中獲取可分辨的逐點特征。
研究人員首先使用了體素化的三維空間并利用卷積對非空的體素進行特征抽取。每個體素的中心被視為一個新的點,這些點構成了一個與原始點云近似的新點云(體素大小5cm5cm10cm,空間大小70m80m4m)。在使用的KITTI數據中每個數據樣本包含了大概16000非空的體素。
用于特征抽取額U-Net架構和對應的上采樣模塊
為了對稀疏的體素信息進行高效的處理,研究人員利用U-Net的架構對點云進行了下采樣和特征抽取。為了得到前景分割和各部分位置的預測,還需要對進行上采樣解碼。模塊中同時對隱含特征和底層特征進行融合,最后通過稀疏逆卷積實現下采樣。
對象內各部分的相對位置信息是網絡對目標進行識別和檢測的保證。例如車輛的側面幾乎是垂直于地面的,而輪子是與地面相接觸的。通過學習和估計前景分割和目標內部各個點的相對位移關系將使得網絡可以學會推理出目標的位姿和形態,提高檢測性能。在U-Net主干網絡的基礎上,模型通過兩個分支分別進行前景分割和目標內部個部分的位置預測。針對目標內部的點,需要先將全局的三維坐標轉換為局部的坐標進行分析。在三維點云的bbox中天然的包含了框中每一個點在對象內部的坐標。研究人員通過將目標內部的點轉換到框原點坐標系中并利用框的w,l.h來歸一化,得到了內部點在內部坐標系下的新表示,并作為預測內部各部分點相對位置的標簽。網絡將通過優化二值化的交叉熵來實現對于每一個對象內部點相對位置的預測。
最后為了生成三維候選框來聚合各個目標內部的位置信息,研究人員在U-Net的特征圖位置補充了一個RPN(regional proposal network)結構,通過對1/8下采樣的特征圖和不同高度融合的鳥瞰特征圖進行處理生成3D候選區域。
具有ROI感知的點云特征池化
在得到目標內部各個的相對位置和一系列的三維候選框后,將要對box進行評分,并通過聚合同一候選框內的所有點的相對信息來實現候選框的位置優化。
為了避免池化帶來了信息損失和模糊,研究人員提出了ROI感知的點云池化模塊,將3D候選分配到固定大小(14*14*14)的均勻體素中去。體素中的特征通過(最大池化,均值池化)聚合內部點的特征來得到,并將空體素的特征設置為0。池化過程中聯合編碼空體素。這一過程將不同的三維候選框歸一化到了相同的坐標系下,其中每個體素都編碼了對應候選框中柵格特征。
內部位置的聚合與三維bbox的優化
研究人員通過聚合候選框內部所有三維點的內部相對位置來評價候選框的質量,并通過基于學習的優化方法來解決這一問題。
針對每個三維候選框,首先通過平均池化預測每個點的位置,通過最大池化獲取每個點的特征。隨后通過逐級處理的方式來最終預測最終的得分與優化后的bbox坐標。
結果
在實驗過程中,研究人員結合了三部分的損失函數來對模型進行了訓練,分別是復雜前景分割的focal損失,負責回歸每個內部點相對位移的二進制交叉熵以及負責進行三維候選框生成的平滑L1損失。
針對聚合階段還包括了IoU回歸的二進制交叉熵以及位置優化的平滑L1。研究人員在KITTI上進行了實現,下表顯示了這一方法在平均精度上顯著高于先前的解決方案。
同時消溶性分析還顯示這一方法通過對于特征的有效學習有效提高了召回率和精度。
最終的結果可以看到對于場景中車輛的預測性能優異,而每個框內的部分位置也實現了較為精確的預測。
-
激光雷達
+關注
關注
968文章
4025瀏覽量
190407 -
三維檢測
+關注
關注
0文章
15瀏覽量
2187
原文標題:深度解析 | 港中文和商湯研究員提出高效的三維點云目標檢測?新框架
文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論