本文是對我們ICCV 2023被接收的文章Revisiting Domain-Adaptive 3D Object Detection by Reliable, Diverse and Class-balanced Pseudo-Labeling的介紹。在這個工作中,我們通過生成可靠、多樣且類別平衡的偽3D物體,實現了單模型多類別同時自訓練,從而將檢測器自適應到目標域的三維場景中。很榮幸地,我們的文章被ICCV 2023收錄,目前項目代碼已開源,歡迎大家試用。
論文:https://arxiv.org/abs/2307.07944
代碼(已開源): https://https://github.com/zhuoxiao-chen/ReDB-DA-3Ddet
概述
隨著基于激光雷達(LiDAR)的三維物體檢測在機器人系統和自動駕駛汽車等各種應用中不斷發展,解決在實際場景中部署檢測器所面臨的挑戰變得愈加重要。主要難題源于訓練數據和測試點云數據之間的差異,這些數據通常來自不同的場景、位置、時間和傳感器類型,造成了“域差異”。
域差異主要來自于物體差異和環境差異,這些因素會顯著降低3D檢測器的預測精度。物體差異指的是訓練和測試域之間物體的空間分布、點密度和尺度的變化。例如,Waymo數據集中汽車的平均長度與KITTI數據集中的平均長度相差約0.91米。另一方面,環境差異則源自于周圍環境的復合差異,如不一致的光束數量、角度、點云范圍和數據采集位置。
例如,在這個圖中,Waymo(右)利用64束激光雷達傳感器生成3D場景,而nuScenes(左)則由更稀疏的32束環境和雙大束角構成。
重新審視領域自適應3D檢測設置。已有的領域自適應3D目標檢測方法通常遵循單類別訓練設置,即對模型進行訓練,使其分別適應每一個類別。雖然同時用所有類別來訓練一個模型更為實際和公平,但我們的實證研究表明,在切換到多類別設置時,先前方法的檢測性能會顯著下降(如下圖)。這種平均精度(AP)的下降可以歸因于生成的偽標簽的質量較差(即錯誤和冗余),以及稀有類別的較低識別準確率(例如在Waymo中自行車比汽車少91倍)。
將多類別3D檢測器通過ST3D的方法進行領域自適應時,平均精度(AP)的降低情況。左圖是從nuScenes到KITTI,右圖是從Waymo到KITTI。
我們的工作將領域自適應三維檢測的設置修正為多類別情景,并提出了一種新穎的ReDB框架,用于在跨域三維目標檢測中生成可靠、多樣和類平衡的偽標簽。在三個大規模測試集上的大量實驗證據表明,所提出的ReDB對于基于體素和基于點的現代3D檢測器在不同環境下都具有出色的適應性,在nuScenes → KITTI任務中,分別相對于現有最先進的方法提高了20.66%和23.15%的3D mAP。
方法
1)總體框架
在第一階段,3D檢測器(例如,SECOND或PointRCNN)在源域上進行預訓練,同時使用隨機物體縮放(ROS)進行數據增強。在預訓練收斂后,即第二階段,將未標記的目標域點云傳遞給預訓練的檢測器,以為目標域的數據生成高置信度的偽標簽。具體而言,所產生的偽標簽將經過跨域檢查(Cross-Domain Examination,簡稱CDE),并由基于重疊框計數(Overlapped Box Counting,簡稱OBC)的多樣性模塊進行下采樣,形成可靠且多樣化的(RED)的偽標簽物體子集。在第三階段對目標域進行模型自訓練時,我們以類平衡的方式在每個點云中隨機注入RED目標域物體和源域對象,并且源樣本的比例逐漸降低。3D檢測器通過在第二階段和第三階段之間交替進行,迭代地進行以適應目標域的環境。
2)可靠性:跨域檢查(CDE)
為了消除高置信度的錯誤偽標簽并避免自訓練中的錯誤累積,我們引入了一種跨域檢查(CDE)策略來評估偽標簽的可靠性。在將偽標簽的目標域的物體復制到模型所熟悉的源域環境中再進行預測,我們通過目標域和源域中兩個預測框之間的一致性,即交并比(Intersection-over-Union,IoU)來衡量偽標簽的可靠性。任何 IoU 值較低的物體都將被視為不可靠。為了防止源域和目標域點云之間的點沖突,我們會刪除落在將復制偽標簽物體區域內的源域點。所提出的CDE策略確保接受的偽標簽物體是領域無關的,并且受環境差異的影響較小。
所提出的跨域檢查(CDE)策略。藍色點為被復制到源域點云的偽標簽物體。紅色和黃色框分別表示目標域和源域中的預測框。綠色框為真值,在這里僅作參考。例子一:目標域和源域的預測框之間IoU足夠大,該偽標簽可靠性被接受;例子二和三:源域中未被檢測到,或IoU不夠大,該偽標簽可靠性不被接受。
3)多樣性:基于OBC的下采樣
為了避免頻繁出現且在尺度上相似的冗余偽標簽,必須防止訓練的檢測器塌陷到一個固定的模式中,這種模式可能只會檢測到某些固定模式的物體(如小型汽車),而漏掉其他風格特殊的物體(如公共汽車和卡車)。為了增強幾何多樣性,我們提出了一個稱為"重疊框計數(OBC)"的指標來均勻地下采樣偽標簽。該度量的設計靈感來自于以下觀察:3D檢測器傾向于為具有不常見幾何形狀的物體預測更多的邊界框,因為僅使用少量緊密邊界框難以定位這些物體。我們將每個檢測到的物體周圍的回歸邊界框數目作為OBC,并使用核密度估計(KDE)來估計其經驗分布。然后,我們根據 KDE 的反概率進行下采樣,從而有效減少了高密度 OBC 區域的偽標簽數量,因為這些區域的物體具有相似且頻繁的幾何形狀。通過從多樣化的偽標簽子集中學習,3D檢測器可以更好地識別不同尺度和點密度的物體,潛在地消除物體差異。
重疊框計數(OBC)示意圖。上半部分顯示的是在非極大值抑制(NMS)之前生成的圍繞三個具有不同OBC值的正預測物體的預測框。下圖展示了所有檢測到的物體的 OBC 值分布,以及用于多樣下采樣的擬合核密度估計(KDE,藍色)和反向核密度估計(inverse KDE,紅色)。
4)平衡性: 類平衡自訓練
盡管前兩個模塊能夠選擇可靠且多樣化(ReD)的偽標簽,但仍存在嚴重的類間不平衡。為了實現類平衡的自訓練,我們隨機向每個目標域的點云注入偽標簽物體,每個類別中的樣本數量相等。通過從這種類別平衡的目標域數據中學習,模型能夠更好地掌握目標域標簽的整體語義。為了實現從源域數據到目標域數據的平滑過渡,我們首先在最初的訓練步中以類平衡的方式用真標簽(Gound truth)的源域物體來增強目標域數據。然后隨著自訓練的進行,我們逐漸減少源域物體的比例,增加ReD偽標簽的數量。這種漸進式的類平衡自訓練使模型能夠穩定地適應目標域,增強對頻繁出現和罕見類別的識別能力。
實驗
1) SECOND在Waymo → KITTI, Waymo → nuScenes 以及nuScenes → KITTI三個領域自適應任務上的結果對比。
所提出的ReDB在后兩個任務(即 Waymo → nuScenes 和 nuScenes → KITTI)中獲得的性能明顯高于第一個任務(即 Waymo → KITTI),這表明ReDB對于適應具有較大環境差異的 3D 場景更加有效。更明顯的是,ReDB方法在所有類別中的表現都很均衡,而所有baslines方法都偏向于最常出現的類別(即汽車),在罕見類別(即行人和騎車人)中表現不佳。總體而言,在跨域三維目標檢測任務的所有場景中,ReDB優于所有baslines方法。
2) SECOND在Waymo → KITTI 以及nuScenes → KITTI 兩個領域自適應任務上,用困難指標來評估指標計算的結果對比。
在從 Waymo 自適應到 KITTI 的過程中,所提出的ReDB優于SOTA方法ST3D++ 5.81%的3D mAP 。在更具挑戰性的跨域檢測任務中(即 nuScenes → KITTI),光束數量、角度和點云范圍都會發生顯著的環境變化,ReDB比SOTA方法的 mAP 3D 高出 16.55%。因此,當使用KITTI指標的困難難度指標來評估時,我們的方法遠遠超過了baseline方法,這表明ReDB能夠使3D檢測器有效地泛化到目標域中困難的物體。
3) PointRCNN在nuScenes → KITTI 任務上結果對比。
值得注意的是,與MLC-Net和SF-UDA在單類別訓練設定下得到的結果相比,我們的多類別方法ReDB甚至取得了更卓越的性能(分別提升了10.02%和19.8%),且這兩種方法都是專為基于點的3D檢測器設計的。
4) 重疊方框計數(OBC)的案例研究
我們可以看到,大多數具有較小OBC值(例如,介于5和8之間)的物體通常具備以下特點:(1)通常更接近激光雷達傳感器,(2)具有完整的物體形狀,(3)通常是小尺寸的物體。這些物體通常具有高度相似且完整的幾何特征,構成了數據集的大部分。相反,具有高OBC值的物體在幾何表示的一個或多個方面通常具有多樣性。在物體尺寸方面,大尺寸物體往往會產生較高的 OBC 分數(如21和26)。除了物體體積外,我們還可以發現明顯遠離激光雷達中心的物體也會產生較高的 OBC 值(從 16 到 23),而低密度和嚴重遮擋的物體也會產生較高的 OBC 值,分別為 18 和 19。因此,所提出的OBC指標能夠有效地在幾何特征的多個維度上量化偽標簽的多樣性,有助于三維檢測器學習更多樣化的目標物體分布,從而緩解跨域目標檢測中的多維度的物體差異問題。
方法不足與未來展望
盡管我們的方法在性能上相較于以往取得了顯著的提升,但在涉及到域差異極大的三維場景(例如Waymo → nuScenes)時,性能仍然受到限制,距離實際應用場景的要求仍有很大差距。除了域差異,另一個限制因素是當前最先進的三維目標檢測器在nuScenes數據集上表現受限。因此,近期越來越多的研究方法開始將2D圖像與3D點云進行融合,以在nuScenes等困難的數據集上獲得更出色的目標檢測效果。工業界也在積極探索這一融合策略并投入實際生產應用。
因此,未來的跨域目標檢測任務可能需要考慮多模態信息,而不僅僅局限于使用單一的點云數據。這一發展趨勢對于實現更全面、魯棒的目標檢測方法具有重要意義。
-
傳感器
+關注
關注
2564文章
52668瀏覽量
764271 -
檢測器
+關注
關注
1文章
887瀏覽量
48458 -
目標檢測
+關注
關注
0文章
223瀏覽量
15920 -
自動駕駛
+關注
關注
788文章
14225瀏覽量
169737
原文標題:ICCV 2023 | ReDB:通過可靠、多樣和類平衡的偽標簽重新審視跨域3D目標檢測
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
3D軟件中如何應用文本特征?3D文本特征應用技巧
看看Stream信號里是如何做跨時鐘域握手的
谷歌開發pipeline,在移動設備上可實時計算3D目標檢測
研究人員通過3D打印開發出更可靠的增強型UHF-RFID標簽
基于跨域類和數據樣本雙重加權的無監督域模型

華南理工開源VISTA:雙跨視角空間注意力機制實現3D目標檢測SOTA
3D IC制造技術已成主流,異構3D IC還有待進步
如何利用車載環視相機采集到的圖像實現精準的3D目標檢測

如何搞定自動駕駛3D目標檢測!

Nullmax提出多相機3D目標檢測新方法QAF2D

評論