1. 原文摘要
神經(jīng)隱式表示已經(jīng)被探索用于增強(qiáng)視覺SLAM掩碼算法,特別是在提供高保真的密集地圖方面。現(xiàn)有的方法在靜態(tài)場景中表現(xiàn)出強(qiáng)大的魯棒性,但卻難以應(yīng)對移動物體造成的干擾。在本文中,我們提出了NID-SLAM,它顯著地提高了神經(jīng)SLAM掩碼在動態(tài)環(huán)境中的性能。我們提出了一種新的方法來增強(qiáng)語義掩碼中不準(zhǔn)確的區(qū)域,特別是在邊緣區(qū)域。利用深度圖像中存在的幾何信息,這種方法能夠準(zhǔn)確地移除動態(tài)物體,從而降低了相機(jī)漂移的概率。此外,我們還引入了一種針對動態(tài)場景的關(guān)鍵幀選擇策略,它提高了相機(jī)跟蹤對大尺度物體的魯棒性,并提高了建圖的效率。在公開的RGB-D數(shù)據(jù)集上的實(shí)驗(yàn)表明,我們的方法在跟蹤精度和建圖質(zhì)量方面優(yōu)于競爭的神經(jīng)SLAM方法。
圖1. NID-SLAM在我們采集的大型動態(tài)場景上的三維重建結(jié)果。
2. 方法提出
視覺同時(shí)定位與地圖建構(gòu)(SLAM)在各種應(yīng)用中發(fā)揮著關(guān)鍵作用,如機(jī)器人導(dǎo)航、增強(qiáng)現(xiàn)實(shí)(AR)和虛擬現(xiàn)實(shí)(VR)。視覺SLAM算法利用傳感器(如單目、立體和RGB-D相機(jī))收集的數(shù)據(jù)來估計(jì)先前未知環(huán)境中相機(jī)的姿態(tài),并逐步構(gòu)建周圍場景的地圖。在各種視覺傳感器中,RGB-D相機(jī)同時(shí)記錄顏色和深度數(shù)據(jù),為三維環(huán)境信息的獲取提供了更有效和精確的基礎(chǔ)。這增強(qiáng)了大多數(shù)SLAM算法的三維重建性能。
最近的方法已經(jīng)將神經(jīng)隱式表示引入到SLAM中。最典型的例子就是神經(jīng)輻射場(NeRF),它將場景顏色和體素密度編碼到神經(jīng)網(wǎng)絡(luò)的權(quán)重中,直接從數(shù)據(jù)中學(xué)習(xí)場景細(xì)節(jié)的高頻信息,極大地增強(qiáng)了建圖的平滑性和連續(xù)性。結(jié)合基于體積表示的渲染方法,通過訓(xùn)練,NeRF可以重新合成輸入圖像,并推廣到相鄰未見的視點(diǎn)。
但是,這些神經(jīng)SLAM算法是基于靜態(tài)環(huán)境的假設(shè),其中一些可以處理合成場景中的小動態(tài)物體。在真實(shí)的動態(tài)場景中,這些算法可能會由于動態(tài)物體的存在而在稠密重建和相機(jī)跟蹤精度方面出現(xiàn)顯著的性能下降。這可能在很大程度上是由于動態(tài)物體導(dǎo)致的數(shù)據(jù)關(guān)聯(lián)不正確,嚴(yán)重破壞了跟蹤過程中的姿態(tài)估計(jì)。此外,動態(tài)物體的信息通常會合并到地圖中,妨礙其長期適用性。
語義信息已經(jīng)在許多研究中被引入到動態(tài)場景中的視覺SLAM算法中。其主要思想是將語義信息與幾何約束相結(jié)合以消除場景中的動態(tài)物體。然而,一方面,由于場景中靜態(tài)信息的減少,這些算法中的地圖質(zhì)量和內(nèi)在聯(lián)系較差。另一方面,由于缺乏對未觀測區(qū)域的合理幾何預(yù)測能力,這些算法通常存在恢復(fù)背景中可觀的空洞。
為了解決這個(gè)問題,我們提出了神經(jīng)隱式動態(tài)SLAM(NID-SLAM)。我們整合精度提高的深度信息與語義分割以檢測和移除動態(tài)物體,并通過將靜態(tài)地圖投影到當(dāng)前幀中以填補(bǔ)這些物體遮擋的背景。
圖2. 系統(tǒng)概覽。1) 動態(tài)物體移除:通過使用語義分割和掩碼修正,精確地消除RGB-D圖像中的動態(tài)物體,然后徹底恢復(fù)被遮擋的背景。2) 跟蹤:通過最小化損失來優(yōu)化相機(jī)姿態(tài){R, t}。3) 建圖:采用基于掩碼的策略來選擇關(guān)鍵幀,用于優(yōu)化特征網(wǎng)格場景表示。4) 場景表示:通過表面聚焦的點(diǎn)采樣,實(shí)現(xiàn)預(yù)測的顏色和深度值的高效渲染。
3. 方法詳解
圖2展示了NID-SLAM的總體框架。給定RGB-D圖像流作為輸入,我們首先使用專門的動態(tài)處理過程移除動態(tài)物體。隨后,我們通過聯(lián)合優(yōu)化相機(jī)姿勢和神經(jīng)場景表示來完成跟蹤和建圖。利用語義先驗(yàn)和深度信息,消除動態(tài)物體,并通過靜態(tài)地圖修復(fù)這些物體遮擋的背景。在每次建圖迭代中,選擇關(guān)鍵幀以優(yōu)化場景表示和相機(jī)姿態(tài)。渲染是通過對查看射線進(jìn)行采樣并在這些射線上各點(diǎn)處集成預(yù)測值來執(zhí)行的。
3.1 動態(tài)物體移除
深度修正:由于深度相機(jī)的局限性,物體與相機(jī)之間距離增加時(shí)的深度估計(jì)精度會降低。存在顯著誤差的深度信息可能導(dǎo)致不正確的數(shù)據(jù)關(guān)聯(lián),破壞相機(jī)跟蹤的穩(wěn)定性。在高度動態(tài)環(huán)境中,這些不準(zhǔn)確性變得更加明顯,增加相機(jī)漂移的概率。此外,由于深度信息中的錯(cuò)誤,構(gòu)建的地圖可能會出現(xiàn)分層現(xiàn)象,其中本應(yīng)位于相同深度的圖像塊在地圖上表示為不同深度。因此,我們檢測并刪除不準(zhǔn)確的深度信息。具體來說,我們計(jì)算深度圖的圖像梯度,并將這些梯度用作評估深度信息準(zhǔn)確性的指標(biāo)。當(dāng)圖像的水平或垂直梯度超過預(yù)定義閾值時(shí),說明深度存在顯著變化,我們將梯度方向上后續(xù)像素點(diǎn)的深度設(shè)置為零,以減輕深度誤差。
基于深度的語義分割:為了檢測動態(tài)物體,我們采用基于邊界框的網(wǎng)絡(luò)進(jìn)行輸入圖像的語義分割,在我們的實(shí)驗(yàn)中使用YOLO算法。該網(wǎng)絡(luò)以RGB原始圖像為輸入,并輸出圖像中潛在動態(tài)或可移動物體的二進(jìn)制掩碼。語義掩碼存在兩個(gè)主要缺點(diǎn)。首先,它們可能無法完全覆蓋動態(tài)物體,有時(shí)會并入環(huán)境中的其他物體。其次,掩碼在邊界區(qū)域容易出錯(cuò)。因此,我們利用深度信息細(xì)化掩碼。對于原始掩碼的每個(gè)邊界點(diǎn),我們檢查以其為中心的五像素半徑區(qū)域,計(jì)算該區(qū)域內(nèi)掩碼中像素的深度值范圍。對于此區(qū)域內(nèi)的掩碼部分,我們計(jì)算所有像素的深度值范圍。對于此區(qū)域外掩碼的像素,其深度值在計(jì)算的范圍內(nèi)的像素被認(rèn)為是掩碼的一部分,并隨后被整合。
背景修復(fù):對于移除的動態(tài)物體,我們使用從以前的視點(diǎn)獲得的靜態(tài)信息來修復(fù)被遮擋的背景,合成一個(gè)沒有動態(tài)物體的逼真圖像。修復(fù)后的圖像包含更多的場景信息,使地圖的外觀更準(zhǔn)確,增強(qiáng)了相機(jī)跟蹤的穩(wěn)定性。利用先前幀和當(dāng)前幀的已知位置,我們將一系列先前關(guān)鍵幀投影到當(dāng)前幀的RGB和深度圖像的分割區(qū)域。由于這些區(qū)域要么尚未出現(xiàn)在場景中,要么已經(jīng)出現(xiàn)但沒有有效的深度信息,因此仍有一些區(qū)域保留未填充。圖1展示了我們自制數(shù)據(jù)集中用作輸入的三幀和最終重建的場景。可以注意到,動態(tài)物體被成功刪除,大多數(shù)分割部分修復(fù)良好。
3.2 基于掩碼的關(guān)鍵幀選擇
對于跟蹤的輸入幀,我們選擇一組關(guān)鍵幀,表示為K。我們對關(guān)鍵幀的偏好傾向于:1) 動態(tài)物體比率較低的幀;2)與前一關(guān)鍵幀重疊率較低的幀。我們使用 和 分別表示輸入幀I的兩個(gè)比率。當(dāng)這兩個(gè)比率之和小于閾值 時(shí),我們將當(dāng)前幀插入關(guān)鍵幀集。為了解決背景修復(fù)中的不準(zhǔn)確性和遺漏信息,我們減少關(guān)鍵幀中的動態(tài)物體比例。這種方法確保整合更多可靠的信息,增強(qiáng)相機(jī)跟蹤的準(zhǔn)確性和穩(wěn)定性。同時(shí),關(guān)鍵幀之間的重疊更小可以使關(guān)鍵幀集包含更多場景信息。在靜態(tài)場景中,此策略默認(rèn)為基于重疊比的選擇。
從K中選擇關(guān)鍵幀以優(yōu)化場景表示時(shí),我們在基于覆蓋的和基于重疊的策略之間交替,旨在在優(yōu)化效率和質(zhì)量之間取得平衡。基于覆蓋的策略傾向于覆蓋最大場景區(qū)域的幀,確保場景邊緣區(qū)域的全面優(yōu)化。但是,這種方法通常需要大量迭代才能優(yōu)化相對較小的邊緣區(qū)域,降低了整體優(yōu)化效率。它還會導(dǎo)致重復(fù)的選擇結(jié)果,因?yàn)閹母采w面積是恒定的,覆蓋面積大的幀保持更高的優(yōu)先級。基于重疊的策略涉及從與當(dāng)前幀視覺上重疊的關(guān)鍵幀中隨機(jī)選擇。為避免過度關(guān)注邊緣區(qū)域并反復(fù)優(yōu)化相同區(qū)域,我們首先使用基于覆蓋的策略優(yōu)化整個(gè)場景,然后多次使用基于重疊的策略,定期重復(fù)此過程。
3.3 場景表示和圖像渲染
3.4 建圖和跟蹤
4. 實(shí)驗(yàn)
本方法在公開的RGB-D數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),包括TUM RGB-D數(shù)據(jù)集和Replica數(shù)據(jù)集,并與現(xiàn)有的方法進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,該方法在動態(tài)環(huán)境中的跟蹤精度和建圖質(zhì)量方面都優(yōu)于其他的神經(jīng)SLAM方法。
表1. TUM RGB-D數(shù)據(jù)集上的相機(jī)跟蹤結(jié)果。評估指標(biāo)為ATE RMSE。 代表相應(yīng)文獻(xiàn)中沒有提到對應(yīng)的數(shù)值。
表2. TUM數(shù)據(jù)集上的平移RPE RMSE結(jié)果。
表3. TUM數(shù)據(jù)集上的旋轉(zhuǎn)RPE RMSE結(jié)果。
圖3. TUM RGB-D數(shù)據(jù)集上的重建結(jié)果。紅框標(biāo)出有動態(tài)物體的區(qū)域。
圖4. Replica數(shù)據(jù)集上的重建結(jié)果。紅框標(biāo)出改進(jìn)的區(qū)域。
表4. Replica數(shù)據(jù)集上的重建結(jié)果(8個(gè)場景的平均值)。
表5. 消融實(shí)驗(yàn)結(jié)果。
5. 結(jié)論
我們介紹了NID-SLAM,這是一種動態(tài)RGB-D神經(jīng)SLAM方法。我們證明神經(jīng)SLAM能夠在動態(tài)場景中實(shí)現(xiàn)高質(zhì)量的建圖和可信的孔填充。利用動態(tài)物體移除,我們的方法實(shí)現(xiàn)了穩(wěn)定的相機(jī)跟蹤并創(chuàng)建可重復(fù)使用的靜態(tài)地圖。準(zhǔn)確獲得的無動態(tài)物體圖像也可以在進(jìn)一步的應(yīng)用中使用,如機(jī)器人導(dǎo)航。
審核編輯:劉清
-
機(jī)器人
+關(guān)注
關(guān)注
212文章
29256瀏覽量
210808 -
RGB
+關(guān)注
關(guān)注
4文章
803瀏覽量
59386 -
編解碼器
+關(guān)注
關(guān)注
0文章
270瀏覽量
24573 -
SLAM
+關(guān)注
關(guān)注
23文章
430瀏覽量
32237 -
MLP
+關(guān)注
關(guān)注
0文章
57瀏覽量
4440
原文標(biāo)題:NID-SLAM:動態(tài)環(huán)境中基于神經(jīng)隱式表示的RGB-D SLAM
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
基于動態(tài)環(huán)境中的魯棒BA和選擇性全局優(yōu)化的魯棒VI-SLAM框架
如何去開發(fā)一款基于RGB-D相機(jī)與機(jī)械臂的三維重建無序抓取系統(tǒng)
基于RGB-D圖像物體識別方法

結(jié)合背景與前景的RGB-D圖像顯著性檢測模型

基于UWB、里程計(jì)和RGB-D融合的室內(nèi)定位方法

用于SLAM的神經(jīng)隱含可擴(kuò)展編碼
用于快速高保真RGB-D表面重建的神經(jīng)特征網(wǎng)格優(yōu)化的GO-Surf
基于RGB-D相機(jī)的三維重建和傳統(tǒng)SFM和SLAM算法有什么區(qū)別?
用于神經(jīng)場SLAM的矢量化對象建圖

瞄準(zhǔn)AGV/AMR領(lǐng)域-維感科技發(fā)布高性價(jià)比RGB-D ToF相機(jī)DS86/87

一個(gè)動態(tài)環(huán)境下的實(shí)時(shí)語義RGB-D SLAM系統(tǒng)

一種基于RGB-D圖像序列的協(xié)同隱式神經(jīng)同步定位與建圖(SLAM)系統(tǒng)

常用的RGB-D SLAM解決方案

評論