近期興起的神經(jīng)輻射場(NeRF)與三維高斯?jié)姙R(3DGS)技術(shù)在視覺SLAM中展現(xiàn)出令人鼓舞的突破性成果。然而,當(dāng)前主流方法多依賴RGBD傳感器,并且僅適用于室內(nèi)環(huán)境。在大規(guī)模室外場景中的重建魯棒性仍未得到探索。本文提出一種基于立體相機(jī)的三維高斯?jié)姙R大規(guī)模視覺SLAM系統(tǒng)LSG-SLAM。通過在EuRoC數(shù)據(jù)集上的廣泛評估,LSG-SLAM展示了其在大規(guī)模室外場景中的優(yōu)越性能。在KITTI數(shù)據(jù)集上,LSG-SLAM達(dá)到了優(yōu)于現(xiàn)有神經(jīng)網(wǎng)絡(luò)、基于3DGS以及傳統(tǒng)方法的性能。
? 文章:
Large-Scale Gaussian Splatting SLAM
? 作者:
Zhe Xin, Chenyang Wu, Penghui Huang, Yanyong Zhang, Yinian Mao, Guoquan Huang*
? 論文鏈接:
https://arxiv.org/abs/2505.09915
? 編譯:
INDEMIND
01本文核心內(nèi)容
視覺SLAM是自主機(jī)器人和具身人工智能中空間智能的關(guān)鍵技術(shù)。從地圖表示的角度來看,SLAM可分為稀疏、密集、隱式神經(jīng)表示和顯式體積表示。傳統(tǒng)的稀疏和密集SLAM系統(tǒng)側(cè)重于幾何映射,并且嚴(yán)重依賴手工特征。此外,這些方法在重建(建圖)過程中僅實際記錄了場景中被觀測到的局部區(qū)域。隱式神經(jīng)表示,特別是神經(jīng)輻射場(NeRF),通過可微渲染進(jìn)行學(xué)習(xí),能夠生成高質(zhì)量的新視角圖像。然而,逐像素光線追蹤仍然是渲染速度的一個重要瓶頸。此外,隱式特征由多層感知機(jī)(MLP)嵌入,可能會面臨災(zāi)難性遺忘問題,且隱式場景不易于編輯。
另一方面,3D高斯?jié)姙R(3DGS)使用高斯點顯式表示場景,3D基本圖形的光柵化使3DGS能夠捕捉高保真度的3D場景,同時加快渲染速度。SplaTAM通過消除視圖相關(guān)外觀并采用各向同性高斯點來提高渲染質(zhì)量。MonoGS采用以地圖為中心的方法,動態(tài)分配高斯點以實現(xiàn)任意空間分布的建模。然而,這些方法使用簡單的均勻運(yùn)動模型來預(yù)測先驗姿態(tài),在視角顯著變化時容易漂移。此外,它們?nèi)狈ο鄯e誤差的顯式閉環(huán)模塊,并且僅在小規(guī)模室內(nèi)環(huán)境中進(jìn)行了測試。
在本文中,我們開發(fā)了一種基于3DGS的大規(guī)模立體視覺SLAM,LSG-SLAM。這是首個專門針對大規(guī)模(室外)場景設(shè)計的3DGS-SLAM(圖1)。特別是,我們采用多模態(tài)策略進(jìn)行姿態(tài)跟蹤,以解決幀間大視角變化的問題。在姿態(tài)優(yōu)化方面,我們整合了渲染損失和特征對齊扭曲約束。前者有助于減輕由特征點引起的檢測和匹配錯誤,而后者則緩解了外觀相似性帶來的不利影響。這些改進(jìn)使我們的方法能夠在低幀率下運(yùn)行,適用于數(shù)據(jù)有限的情況。對于大規(guī)模場景中的地圖構(gòu)建,我們引入連續(xù)的GS子地圖來處理由無界場景和有限內(nèi)存引起的可擴(kuò)展性問題。通過不同GS子地圖中關(guān)鍵幀之間的位置識別,仔細(xì)檢測有效的回環(huán)。利用高斯?jié)姙R的光柵化,通過最小化渲染幀與查詢關(guān)鍵幀之間的差異來估計回環(huán)約束,使用與跟蹤相同的損失。此外,基于子地圖的結(jié)構(gòu)細(xì)化模塊在全局姿態(tài)圖和點云調(diào)整之后提高了重建質(zhì)量。
本文的貢獻(xiàn)可概括為:
? 開發(fā)了首個基于3DGS的大規(guī)模環(huán)境立體視覺SLAM系統(tǒng),顯著提高了跟蹤穩(wěn)定性、地圖一致性、可擴(kuò)展性和重建質(zhì)量。
? 倡導(dǎo)高效的3DGS渲染以生成新穎視圖,從而更好地進(jìn)行圖像/特征匹配,包括局部和全局匹配,以提升跟蹤和閉環(huán)性能。
? 提出了一種基于子地圖的結(jié)構(gòu)細(xì)化方法,遵循全局位姿圖和點云調(diào)整,以提高重建質(zhì)量。
? 進(jìn)行了廣泛的實驗驗證,結(jié)果表明所提方法相較于最先進(jìn)的基于3DGS的SLAM方法,能夠?qū)⒏櫨忍岣?0%,重建質(zhì)量提高50%。
02方法架構(gòu)
所提出的LSG-SLAM是一種立體SLAM系統(tǒng),它同時跟蹤相機(jī)姿態(tài)并使用三維高斯點重建場景。圖2描繪了整個系統(tǒng)架構(gòu)。主要組件包括連續(xù)GS子地圖的同時跟蹤與建圖、閉環(huán)檢測以及結(jié)構(gòu)優(yōu)化。
03實驗結(jié)果
我們使用兩個知名立體數(shù)據(jù)集EuRoC和KITTI進(jìn)行評估。EuRoCMAV數(shù)據(jù)集包含室內(nèi)外場景,具有劇烈視角變化和大規(guī)模光照變化。大規(guī)模KITTI數(shù)據(jù)集覆蓋城市、鄉(xiāng)村和高速公路等多種場景。
A.EuRoC數(shù)據(jù)集評估
1.跟蹤性能
表I顯示詳細(xì)對比結(jié)果,相比其他3DGS方法,LSG-SLAM在低頻圖像下仍顯著提升跟蹤精度。
傳統(tǒng)模型的局限,SplaTAM與MonoGS依賴勻速運(yùn)動模型,易漂移;Photo-SLAM依賴ORB特征重投影誤差,但在弱紋理劇烈運(yùn)動場景下易失效。
LSG-SLAM采用多模態(tài)先驗估計來處理劇烈的視角變化,并將渲染損失和特征對齊扭曲約束相結(jié)合來進(jìn)行位姿優(yōu)化。前者減輕了由非重復(fù)特征點提取引起的誤差以及弱紋理區(qū)域的影響,而后者減少了在大面積相似區(qū)域中外觀相似性帶來的誤導(dǎo)效應(yīng)。經(jīng)過閉環(huán)優(yōu)化后,LSG-SLAM不僅實現(xiàn)了與ORB-SLAM3相當(dāng)?shù)能壽E精度,而且在具有挑戰(zhàn)性的場景中還表現(xiàn)出更高的重建成功率。
2.建圖質(zhì)量
表II對比渲染結(jié)果。
我們的方法在渲染質(zhì)量方面優(yōu)于SplaTAM和MonoGS即使沒有結(jié)構(gòu)細(xì)化模塊,我們的方法也能實現(xiàn)更精準(zhǔn)的跟蹤精度,從而減少地圖結(jié)構(gòu)誤差。在加入結(jié)構(gòu)細(xì)化模塊后,重建質(zhì)量有了顯著提升,這表明橢球體比球體更能有效捕捉復(fù)雜的紋理細(xì)節(jié)。此外,新增的尺度正則化損失使得峰值信噪比(PSNR)高于原始的3D高斯點云法。
B.KITTI數(shù)據(jù)集評估
1.跟蹤性能
表V對比位姿估計精度,我們的方法優(yōu)于傳統(tǒng)方法和基于學(xué)習(xí)的方法。
基于 3DGS 的代表性方法因內(nèi)存限制無法完整處理整個序列。相比之下,通過基于連續(xù)GS子圖的閉環(huán),LSG-SLAM能夠在有限資源下重建大規(guī)模場景。
在效率優(yōu)勢上,LSG-SLAM無需訓(xùn)練(PVO與DROID-SLAM需數(shù)日訓(xùn)練且泛化性受限)。
2.建圖質(zhì)量
表VI顯示,我們的結(jié)構(gòu)細(xì)化模塊顯著提高了渲染質(zhì)量。
3D高斯?jié)姙R直接優(yōu)化各向異性高斯橢球體,這常常導(dǎo)致浮點數(shù)。相比之下,各向同性高斯球體收斂速度更快,在早期優(yōu)化階段也更不易出現(xiàn)浮點數(shù)。我們的方法首先使用各向同性高斯球體重建場景,學(xué)習(xí)一個良好的初始值。然后,在結(jié)構(gòu)細(xì)化階段,將球體轉(zhuǎn)換為橢球體以細(xì)化物體表面細(xì)節(jié)。此過程增強(qiáng)了我們方法對漂浮物的抗性,從而提高了渲染質(zhì)量。
04總結(jié)
本文提出了LSG-SLAM——這是首個基于3D高斯?jié)姙R(3DGS)、專門針對大規(guī)模場景且僅使用立體相機(jī)的視覺SLAM系統(tǒng)。其主要組件包括連續(xù)子地圖的同時跟蹤與建圖、閉環(huán)檢測以及結(jié)構(gòu)優(yōu)化。所提出的LSG-SLAM顯著提高了跟蹤穩(wěn)定性、建圖一致性、可擴(kuò)展性和重建質(zhì)量。我們的LSG-SLAM在與傳統(tǒng)方法和基于學(xué)習(xí)的方法的對比中達(dá)到了最先進(jìn)的性能。
-
傳感器
+關(guān)注
關(guān)注
2564文章
52724瀏覽量
764760 -
機(jī)器人
+關(guān)注
關(guān)注
213文章
29568瀏覽量
211967 -
人工智能
+關(guān)注
關(guān)注
1805文章
48843瀏覽量
247461 -
SLAM
+關(guān)注
關(guān)注
24文章
437瀏覽量
32379
原文標(biāo)題:LSG-SLAM:首個針對大規(guī)模室外場景的魯棒視覺SLAM,超越傳統(tǒng)與神經(jīng)方法!
文章出處:【微信號:gh_c87a2bc99401,微信公眾號:INDEMIND】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
三維設(shè)計應(yīng)用案例
基于STM32的三維旋轉(zhuǎn)顯示平臺設(shè)計(立體成像)!!!
三維表面粗糙度高斯濾波快速算法
三維立體視覺技術(shù)的應(yīng)用及其三維恢復(fù)方法介紹
基于雙目立體視覺的三維拼接和融合方法

基于視覺詞典BOW的三維SLAM算法
近日奧比中光Workshop舉行展示 商業(yè)空間三維數(shù)字化大規(guī)模應(yīng)用前景
基于三維激光數(shù)據(jù)的層級式SLAM方法

其域創(chuàng)新手持激光雷達(dá)手持SLAM靈光Lixel,為地下停車場進(jìn)行三維建模

深度解析三維機(jī)器視覺成像方法
三維計算視覺研究分析
多功能三維高斯計

評論