1、筆者導讀
我們提出了一種名為OccNeRF的方法,用于自監督多相機3D占用預測。該方法通過參數化重建的占用場來表示無限空間,并通過神經渲染將占用場轉換為多相機深度圖。為了提供幾何和語義監督,該方法利用多幀圖像之間的光度一致性進行監督。此外,為了語義占用預測,該方法還設計了幾種策略來處理預訓練的開放詞匯模型。
2、解決了什么?
本研究提出了一種自監督的多攝相機3D占據預測方法,名為OccNeRF。該方法旨在解決無界場景的建模問題。
3、方法
主要包括以下幾個方面:
參數化占用場景表示:
使用神經輻射場(Neural Radiance Fields,NeRF)來表示占用場景。
引入參數化坐標系,將無界的場景表示為有界的占用場景。
使用參數化坐標系中的體素來表示占用場景的內部和外部區域。
使用占用場景的體素表示來訓練網絡。
多攝像頭特征聚合
對于每個攝像頭,將其對應的圖像特征投影到參數化坐標系中的體素上。
使用雙線性插值將投影后的特征聚合為體素特征。
使用三維卷積網絡提取特征并預測最終的占用輸出。
多幀深度估計
使用體素渲染技術將占用場景投影到多攝像頭的深度圖上。
通過沿著攝像頭中心到像素的射線采樣一系列點,計算對應像素的深度值。
使用渲染權重代替密度來適應占用場景的表示。
使用多幀光度損失來訓練深度估計模型。
開放詞匯語義監督
使用多攝像頭圖像的二維語義標簽提供像素級的語義監督。
通過將預訓練的開放詞匯模型的輸出與圖像特征進行對齊,生成二維語義標簽。
使用二維語義標簽來訓練網絡,提高幾何一致性和體素之間的空間關系的捕捉能力。
4、損失函數
研究所涉及的損失函數有以下幾種:
渲染損失:用于訓練神經輻射場(Neural Radiance Fields,NeRF)模型的監督信號。通過計算渲染的像素顏色與真實像素顏色之間的差異來衡量模型的性能。
時序光度損失:用于多幀深度估計的監督信號。通過將相鄰幀投影到當前幀,并計算投影圖像與原始圖像之間的重構誤差來訓練模型。
語義損失:用于語義三維占據預測的監督信號。通過提供多相機圖像的二維語義標簽,幫助網絡捕捉幾何一致性和體素之間的空間關系。
5、實驗結果
本研究采用了自監督的多相機占據預測方法,稱為OccNeRF。我們的實驗方法和結果如下:
數據集:本研究在nuScenes數據集上進行實驗,該數據集包含600個場景用于訓練,150個場景用于驗證,150個場景用于測試。數據集包含大約40000幀圖像和17個類別。
自監督深度估計:首先,將LiDAR點云投影到每個視角上,得到深度圖作為自監督深度估計的輸入。然后,使用神經輻射場(Neural Radiance Fields,NeRF)方法進行深度估計。NeRF使用渲染方程將3D場景中的顏色和深度信息映射到2D圖像中。本研究在NeRF的基礎上進行改進,引入了時間光度約束和多幀渲染,以提高深度估計的準確性。
占據預測:為了預測場景中的占據情況,本研究使用了Grounding DINO模型和Grounded-SAM模型。首先,使用Grounding DINO模型生成檢測邊界框和對應的logits和短語。然后,將這些信息輸入到Grounded-SAM模型中,生成精確的語義分割二值掩碼。最后,使用體素渲染技術將語義標簽投影到圖像空間中,得到占據預測結果。
實驗評估:本研究使用了多個評估指標來評估深度估計和占據預測的性能,包括絕對相對誤差(Abs Rel)、平方相對誤差(Sq Rel)、均方根誤差(RMSE)等。同時,與其他自監督和有監督方法進行了比較,以驗證OccNeRF方法的優越性。
5、總結
本研究通過自監督深度估計和占據預測方法,實現了對多攝像頭場景中的占據情況的準確預測。實驗結果表明,OccNeRF方法在深度估計和占據預測方面取得了較好的性能。
審核編輯:黃飛
-
攝像頭
+關注
關注
60文章
4862瀏覽量
96311 -
相機圖像
+關注
關注
0文章
7瀏覽量
6075 -
LIDAR
+關注
關注
10文章
328瀏覽量
29540
原文標題:清華最新發布!OccNeRF:基于神經輻射場的自監督多相機占用預測
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論