本文提出了一種即插即用的單目SLAM系統(tǒng),能夠在15FPS的幀率下生成全局一致的位姿和稠密幾何圖形。
01 本文核心內(nèi)容
視覺SLAM乃是當(dāng)今機(jī)器人技術(shù)與增強(qiáng)現(xiàn)實產(chǎn)品的基礎(chǔ)性構(gòu)建模塊。通過精心設(shè)計的集成式硬件與軟件堆棧,實現(xiàn)穩(wěn)健且精準(zhǔn)的視覺SLAM已成為可能。然而,SLAM尚未能成為一種即插即用的算法,因其需要硬件方面的專業(yè)知識以及校準(zhǔn)操作。即便對于僅配備單個攝像頭且無諸如IMU等額外傳感器的最簡設(shè)置而言,也不存在一種能夠在野外可靠地同時提供準(zhǔn)確姿態(tài)和一致稠密地圖的SLAM解決方案。達(dá)成如此可靠的稠密SLAM系統(tǒng)將為空間智能研究開辟新的方向。
僅依靠2D圖像來執(zhí)行稠密SLAM時,需要對隨時間變化的姿態(tài)、相機(jī)模型以及3D場景幾何進(jìn)行推理。為解決這種高維度的逆問題,從手工構(gòu)建到數(shù)據(jù)驅(qū)動的各類先驗知識已被提出。單視圖先驗,如單目深度和法向量,試圖從單張圖像預(yù)測幾何結(jié)構(gòu),但其中存在歧義并且在不同視圖間缺乏一致性。雖然諸如光流之類的多視圖先驗降低了歧義性,但要解耦姿態(tài)和幾何結(jié)構(gòu)卻頗具挑戰(zhàn),因為像素運(yùn)動取決于外部參數(shù)和相機(jī)模型。盡管這些潛在原因可能會隨時間和不同觀察者而變化,但3D場景在不同視圖中保持不變。因此,從圖像中求解姿態(tài)、相機(jī)模型和稠密幾何所需的統(tǒng)一先驗必須處于共同坐標(biāo)系下的3D幾何空間中。
近期,由DUSt3R及其后續(xù)的MASt3R開創(chuàng)的雙視圖3D重建先驗,通過利用精心整理的3D數(shù)據(jù)集,在結(jié)構(gòu)從運(yùn)動(SfM)領(lǐng)域引發(fā)了范式轉(zhuǎn)變。這些網(wǎng)絡(luò)能直接從處于共同坐標(biāo)系的兩張圖像中輸出點圖,使得上述子問題在聯(lián)合框架中得以隱式求解。未來,這些先驗將在具有顯著失真的各類相機(jī)模型上接受訓(xùn)練。雖然3D先驗可以納入更多視圖,但SfM和SLAM利用空間稀疏性并避免冗余以實現(xiàn)大規(guī)模一致性。雙視圖架構(gòu)將雙視圖幾何作為SfM的構(gòu)建模塊,這種模塊化特性為高效決策和后端的穩(wěn)健共識開啟了大門。
在本項工作中,我們提出了首個以雙視圖3D重建先驗作為跟蹤、映射和重定位的統(tǒng)一基礎(chǔ)的實時SLAM框架,如圖1所示。盡管先前的工作已將這些先驗應(yīng)用于無序圖像集合的離線SfM場景中,但SLAM是遞增式接收數(shù)據(jù)并且必須維持實時運(yùn)行。這就需要對低延遲匹配、精心的地圖維護(hù)以及大規(guī)模優(yōu)化的高效方法持有新的觀點。此外,受SLAM中的濾波和優(yōu)化技術(shù)啟發(fā),我們在前端對點圖進(jìn)行局部濾波,以在后端實現(xiàn)大規(guī)模全局優(yōu)化。我們的系統(tǒng)對每張圖像的相機(jī)模型除了所有光線都通過的唯一相機(jī)中心外不做任何假設(shè)。這造就了一個能夠重建具有通用、隨時間變化的相機(jī)模型場景的實時稠密單目SLAM系統(tǒng)。在給定校準(zhǔn)的情況下,我們還在軌跡精度和稠密幾何估計方面展現(xiàn)出了最先進(jìn)的性能。
02 主要貢獻(xiàn)
? 首個以雙視圖3D重建先驗MASt3R作為基礎(chǔ)的實時SLAM系統(tǒng)。
? 用于點圖匹配、跟蹤與局部融合、圖構(gòu)建與閉環(huán)以及二階全局優(yōu)化的高效技術(shù)。
? 一個能夠處理通用、隨時間變化的相機(jī)模型的最先進(jìn)的稠密SLAM系統(tǒng)。
03 方法架構(gòu)
在圖3中概述了該方法的主要組成部分:MASt3R預(yù)測和點云匹配、跟蹤和局部融合、閉環(huán)處理和全局優(yōu)化。
新圖像通過MASt3R預(yù)測點圖,并利用我們高效的迭代投影點圖匹配來尋找像素匹配,從而與當(dāng)前關(guān)鍵幀進(jìn)行跟蹤。跟蹤過程會估計當(dāng)前位姿并執(zhí)行局部點圖融合。當(dāng)新的關(guān)鍵幀添加到后端時,利用編碼的MASt3R特征對檢索數(shù)據(jù)庫進(jìn)行查詢,從而選出閉環(huán)候選。隨后,MASt3R對候選進(jìn)行解碼,若找到足夠數(shù)量的匹配,則向后端圖添加邊。大規(guī)模二階優(yōu)化實現(xiàn)了位姿和密集幾何的全局一致性。
04 結(jié)果
4.1.相機(jī)位姿估計
TUMRGB-D:在TUM數(shù)據(jù)集上,如表1所示,當(dāng)利用校準(zhǔn)信息時,我們展現(xiàn)出了在軌跡誤差方面的最先進(jìn)水平。許多此前表現(xiàn)最佳的算法,例如DROID-SLAM、DPV-SLAM以及GO-SLAM,都是基于DROID-SLAM所提出的基礎(chǔ)匹配和端到端系統(tǒng)構(gòu)建的。相較而言,我們提出了一個獨(dú)特的系統(tǒng),采用了現(xiàn)成的雙視圖幾何先驗,并表明其能夠在實時運(yùn)行的情況下超越其他所有系統(tǒng)。此外,我們未校準(zhǔn)的系統(tǒng)顯著優(yōu)于一個基準(zhǔn),我們將其標(biāo)記為DROID-SLAM*,該基準(zhǔn)在序列的首張圖像上使用GeoCalib來校準(zhǔn)內(nèi)參,然后供DROID-SLAM使用。我們在無需在整個序列中假定固定相機(jī)模型的情況下實現(xiàn)了這一成果,并展示了在未校準(zhǔn)的稠密SLAM中3D先驗相對于解決子問題的先驗的價值。我們未校準(zhǔn)的SLAM結(jié)果也可與諸如DPV-SLAM等已知校準(zhǔn)的其他近期學(xué)習(xí)技術(shù)的結(jié)果相媲美。
7-Scenes:我們依照NICER-SLAM的方式使用相同的序列進(jìn)行評估,如表2所示。我們校準(zhǔn)后的系統(tǒng)在性能上優(yōu)于NICER-SLAM和DROIDSLAM。此外,我們使用單個3D重建先驗的實時未校準(zhǔn)系統(tǒng)在性能上優(yōu)于NICER-SLAM,后者在深度、法線和光流網(wǎng)絡(luò)中使用多個先驗且離線運(yùn)行。
ETH3D-SLAM:由于其難度較大,ETH3D-SLAM僅針對RGB-D方法進(jìn)行了評估。由于官方私有評估中的ATE閾值對于單目方法而言過于嚴(yán)格,我們在訓(xùn)練序列上對幾款最先進(jìn)的單目系統(tǒng)進(jìn)行了評估,并生成了ATE曲線。該數(shù)據(jù)集包含具有快速相機(jī)運(yùn)動的序列,因此對于所有方法,我們均未對幀進(jìn)行下采樣。雖然其他方法可能具有更精確的軌跡,但我們的方法在魯棒性方面具有更出色的表現(xiàn),在ATE和曲線下面積(AUC)方面均取得了最佳結(jié)果。
EuRoC:我們在表3中報告了所有11個EuRoC序列的平均ATE。對于未校準(zhǔn)的情況,我們發(fā)現(xiàn)由于MASt3R尚未針對此類相機(jī)模型進(jìn)行訓(xùn)練,所以畸變過于顯著,因此我們對圖像進(jìn)行了去畸變處理,但未向其余管道提供校準(zhǔn)信息。總體而言,我們的系統(tǒng)在性能上不如DROID-SLAM,但其明確在訓(xùn)練中加入了10%的灰度圖像。不過,0.041米的ATE仍然非常準(zhǔn)確,從中的比較來看,所有優(yōu)于DROID-SLAM的方法都建立在DROID-SLAM的基礎(chǔ)之上,而我們則提出了一種運(yùn)用3D重建先驗的新穎方法。
4.2.稠密幾何評估
我們在EuRoCVicon房間序列和7-Scenesseq-01上,針對我們的幾何結(jié)果與DROID-SLAM和Spann3R進(jìn)行評估。對于EuRoC,通過將估計軌跡與Vicon軌跡對齊,從而獲取參考點云和估計點云之間的對齊。需要注意的是,這種設(shè)置對DROID-SLAM有利,因其軌跡誤差更低。對于7-Scenes,我們利用數(shù)據(jù)集提供的位姿對深度圖像進(jìn)行后投影以創(chuàng)建參考點云。由于未提供RGB和深度傳感器之間的外部校準(zhǔn),隨后使用ICP將其與估計點云對齊。
我們報告了用于評估準(zhǔn)確性(定義為每個估計點與其最近參考點之間的距離)和完整性(定義為每個參考點與其最近估計點之間的距離)的均方根誤差(RMSE)。這兩個指標(biāo)均在最大距離閾值為0.5米的情況下計算,并在所有序列上取平均值。我們還報告了倒角距離,即這兩個指標(biāo)的平均值。
表3總結(jié)了在7-Scenes和EuRoC上的幾何評估結(jié)果。對于7-Scenes,我們無論是否進(jìn)行校準(zhǔn)的方法以及Spann3R相較于DROID-SLAM都實現(xiàn)了更精確的重建,突顯了3D先驗的優(yōu)勢。我們在兩種不同設(shè)置下運(yùn)行Spann3R。其一,每20張圖像獲取一個關(guān)鍵幀;其二,每2張圖像獲取一個關(guān)鍵幀。這兩種設(shè)置的差異顯示出無測試時間優(yōu)化方法在泛化方面所面臨的挑戰(zhàn)。我們未校準(zhǔn)的方法在準(zhǔn)確性和倒角距離上表現(xiàn)最佳。這可歸因于7-Scenes提供的內(nèi)在校準(zhǔn)是默認(rèn)的工廠校準(zhǔn)。
對于EuRoC,Spann3R表現(xiàn)不佳,因為這些序列并非以物體為中心,所以被排除在外。如表3所總結(jié),盡管在ATE方面DROID-SLAM優(yōu)于我們的方法,但我們有/無校準(zhǔn)的方法在幾何方面表現(xiàn)更優(yōu)。DROID-SLAM由于估計出大量圍繞參考點云的噪聲點,從而獲得了更高的完整性,但我們的方法在準(zhǔn)確性上顯著更優(yōu)。有趣的是,我們未校準(zhǔn)的系統(tǒng)ATE明顯更大,但在倒角距離上仍優(yōu)于DROID-SLAM。
4.3.定性結(jié)果
圖中展示了具有挑戰(zhàn)性的Burghers序列的重建,該序列在鏡面圖形上幾乎沒有可匹配的特征。我們在圖中展示了TUM的姿態(tài)估計和密集重建的示例,在圖中展示了EuRoC的示例。此外,我們在圖7中展示了連續(xù)關(guān)鍵幀之間存在極端縮放變化的示例。
05 總結(jié)
我們提出了一種基于MASt3R的實時稠密SLAM系統(tǒng),該系統(tǒng)能夠處理野外視頻并取得了最先進(jìn)的性能。近期SLAM領(lǐng)域的諸多進(jìn)展都遵循了DROID-SLAM的貢獻(xiàn),其訓(xùn)練了一個端到端的框架,通過流更新來求解姿態(tài)和幾何問題。我們采用了一種不同的方法,圍繞現(xiàn)成的幾何先驗構(gòu)建了一個系統(tǒng),首次實現(xiàn)了可與之媲美的姿態(tài)估計,同時還提供了一致的稠密幾何結(jié)構(gòu)。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
29537瀏覽量
211759 -
SLAM
+關(guān)注
關(guān)注
24文章
436瀏覽量
32358
原文標(biāo)題:即插即用!基于3D重建先驗,實時、魯棒、全局一致的稠密SLAM
文章出處:【微信號:gh_c87a2bc99401,微信公眾號:INDEMIND】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
從基本原理到應(yīng)用的SLAM技術(shù)深度解析

SLAM技術(shù)的應(yīng)用及發(fā)展現(xiàn)狀
請問怎樣去設(shè)計一種天線實時測量系統(tǒng)?
如何去實現(xiàn)一種MP3實時解碼系統(tǒng)的設(shè)計?
HOOFR-SLAM的系統(tǒng)框架及其特征提取
一種實時數(shù)據(jù)管理系統(tǒng)的開發(fā)
VIL-SLAM系統(tǒng)可實現(xiàn)獲得更好的回環(huán)約束

一種基于直接法的動態(tài)稠密SLAM方案
一種智慧型水質(zhì)實時監(jiān)測系統(tǒng)設(shè)計

什么是SLAM?基于3D高斯輻射場的SLAM優(yōu)勢分析
一種適用于動態(tài)環(huán)境的實時視覺SLAM系統(tǒng)

一種全新開源SfM框架MASt3R

一種基于點、線和消失點特征的單目SLAM系統(tǒng)設(shè)計

評論