基于高斯的場(chǎng)景表示在新視角下會(huì)出現(xiàn)幾何失真,這大大降低了基于高斯的跟蹤方法的準(zhǔn)確性。這些幾何不一致主要源于高斯基元的深度建模以及在深度融合過程中表面之間的相互干擾。為了解決這些問題,我們提出了一種基于二維高斯的增量重建策略,并結(jié)合了表面感知深度渲染機(jī)制,這顯著提高了幾何精度和多視角一致性。此外,所提出的局部地圖設(shè)計(jì)在跟蹤過程中動(dòng)態(tài)隔離可見表面,減輕了全局地圖中被遮擋區(qū)域引起的錯(cuò)位,同時(shí)隨著高斯密度的增加保持了計(jì)算效率。
? 文章:
GauS-SLAM: Dense RGB-D SLAM with Gaussian Surfels
? 作者:
Yongxin Su, Lin Chen, Kaiting Zhang, Zhongliang Zhao, Chenfeng Hou, Ziping Yu*
? 論文鏈接:
https://arxiv.org/abs/2505.01934
? 編譯:
INDEMIND
01本文核心內(nèi)容
在過去的十年里,稠密視覺SLAM一直是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)基礎(chǔ)研究方向。近期在地圖表示方面的進(jìn)展越來(lái)越多地聚焦于將神經(jīng)模型與傳統(tǒng)3D特征(如點(diǎn)、體素和表面元素)相結(jié)合,從而實(shí)現(xiàn)更靈活和精確的地圖構(gòu)建。盡管有這些創(chuàng)新,當(dāng)前的方法在諸如姿態(tài)優(yōu)化、收斂困難以及持續(xù)學(xué)習(xí)過程中的災(zāi)難性遺忘等方面仍面臨重大挑戰(zhàn)。
基于三維高斯?jié)姙R(3D Gaussian Splatting, 3DGS) 的顯式表示方法在三維重建和稠密SLAM任務(wù)中展現(xiàn)了潛力。
過去的研究提出了基于高斯模型的跟蹤和建圖流程。然而,這些基于高斯的跟蹤方法常常會(huì)因姿態(tài)估計(jì)不準(zhǔn)確和收斂問題而受到影響。相比之下,一些研究通過將跟蹤與高斯模型分離,并利用成熟的里程計(jì)方法來(lái)解決這些問題。盡管這種分離式設(shè)計(jì)提高了實(shí)時(shí)性能,但它本質(zhì)上缺乏耦合系統(tǒng)所能提供的重建與定位之間的相互強(qiáng)化。
在本文中,我們重點(diǎn)關(guān)注在基于高斯的耦合SLAM框架中遇到的兩個(gè)關(guān)鍵挑戰(zhàn),如圖2所示。
幾何失真問題
在大多數(shù)基于高斯的跟蹤方法中,相機(jī)變換是通過將觀測(cè)結(jié)果與當(dāng)前視角的渲染結(jié)果對(duì)齊來(lái)估計(jì)的。在此過程中,透視引起的幾何失真會(huì)導(dǎo)致幀與高斯模型之間的錯(cuò)位,從而降低跟蹤精度。
問題原因在于。首先,基于高斯的深度表示模型存在固有的不一致性,其中中心深度模型三維高斯基元的多視圖深度估計(jì)不一致(如圖2(a1)所示),而二維高斯曲面元素通過相交深度模型有效解決了這種不一致性。第二個(gè)原因源于不同表面在深度融合過程中的相互干擾。如圖2(a2)所示,在重建椅子靠背時(shí),遠(yuǎn)處深度較大的地板導(dǎo)致深度融合效果不佳。為解決深度融合的模糊性,我們提出了一種基于高斯曲面元素的增量重建策略,并結(jié)合表面感知深度渲染方案,顯著提高了高斯場(chǎng)景的幾何精度和視圖一致性。
幀與高斯模型對(duì)齊過程中的異常值剔除
正如SplaTAM所展示的,異常值消除至關(guān)重要,他們的方法通過遮蔽累積不透明度低的區(qū)域來(lái)實(shí)現(xiàn)。然而,如圖2(b)所示,累積不透明度高的干擾區(qū)域仍然難以遮蔽,尤其是在相機(jī)圍繞物體移動(dòng)時(shí)。我們的方法限制了相機(jī)的移動(dòng)范圍通過跟蹤到一張小的局部地圖,從而將這些干擾區(qū)域與全局地圖隔離開來(lái)。此外,通過定期重置局部地圖,我們確保相機(jī)跟蹤始終在高斯原語(yǔ)的子集內(nèi)運(yùn)行,避免隨著高斯數(shù)量的增加而導(dǎo)致跟蹤效率下降。
為此,我們提出了GauS-SLAM,這是一種稠密SLAM系統(tǒng),它在緊密耦合的前端/后端框架中利用二維高斯基元和局部地圖架構(gòu),成功解決了多視角幾何失真與異常值干擾難題,在RGB-D數(shù)據(jù)集上實(shí)現(xiàn)了優(yōu)異的定位精度和視圖合成質(zhì)量。
02方法架構(gòu)
GauS-SLAM概述。該框架由前端和后端組成,前端使用單個(gè)局部地圖進(jìn)行跟蹤和建圖,后端負(fù)責(zé)將局部地圖合并到全局地圖中,并進(jìn)行基于子地圖的全局優(yōu)化。
前端
在前端,所有的優(yōu)化過程都在本地地圖中進(jìn)行。本地地圖的第一幀作為參考關(guān)鍵幀(RKF)。在處理新幀時(shí),前端首先執(zhí)行相機(jī)跟蹤以估計(jì)其相對(duì)于RKF的位姿。然后根據(jù)新觀測(cè)到的場(chǎng)景比例是否超過預(yù)定義閾值,用來(lái)評(píng)估該幀是否符合關(guān)鍵幀(KF)的條件。增量式地圖構(gòu)建在KF上進(jìn)行。如果本地地圖中的高斯基元數(shù)量超過指定閾值,前端將幀和本地高斯地圖發(fā)送到后端,并重新初始化一個(gè)新的本地地圖以繼續(xù)跟蹤和構(gòu)建地圖。此時(shí),當(dāng)前幀在新的本地地圖中被標(biāo)記為新的RKF。
后端
系統(tǒng)的后端主要負(fù)責(zé)合并本地地圖并優(yōu)化全局地圖。在接收到本地地圖后,后端將本地地圖中的幀作為子地圖存儲(chǔ)在數(shù)據(jù)庫(kù)中,并將本地高斯地圖整合到全局地圖中。具體來(lái)說(shuō),首先將本地地圖中的高斯基元的不透明度重置為0.01,然后根據(jù)其RKF位姿添加到全局地圖中。隨后,當(dāng)前子地圖及其共視子地圖將被共同選中用于本地映射。為了確定子地圖之間的共視性,我們使用NetVLAD從每個(gè)子地圖的第一幀和最后一幀中提取的視覺特征。映射過程完成后,不透明度低于0.05的高斯基元將被修剪。這一步有效地消除了本地地圖和全局地圖之間的重疊部分,從而防止了高斯基元的持續(xù)累積。
為了減少軌跡誤差的累積,將應(yīng)用束調(diào)整(BA)來(lái)優(yōu)化共視子地圖中涉及的的位姿及全局地圖。在BA過程中,幀將從共視子地圖中隨機(jī)選取,并通過最小化以下公式來(lái)進(jìn)行優(yōu)化。
當(dāng)后端不繁忙時(shí),會(huì)從數(shù)據(jù)庫(kù)中的子地圖中隨機(jī)選擇一幀來(lái)優(yōu)化全局地圖,我們將其稱為隨機(jī)優(yōu)化。這一過程有效地緩解了遺忘問題,并增強(qiáng)了高斯場(chǎng)景的全局一致性。在前端和后端完成重建后,隨機(jī)優(yōu)化會(huì)繼續(xù)運(yùn)行一段時(shí)間以減少漂浮的高斯,確保全局地圖得到均勻優(yōu)化。我們將此過程稱為最終細(xì)化,實(shí)驗(yàn)表明這顯著提高了渲染質(zhì)量。
03實(shí)驗(yàn)結(jié)果
與SOTA基線的比較
1.跟蹤性能
在四個(gè)數(shù)據(jù)集上所選序列的跟蹤性能比較分別在表1和表2中給出。我們提出的GauS-SLAM實(shí)現(xiàn)了毫米級(jí)定位精度,在Replica和ScanNet++數(shù)據(jù)集上建立了新的SOTA性能。具體而言,在Replica數(shù)據(jù)集上,我們的方法表現(xiàn)出色,ATE-RMSE為0.06厘米,比之前的SOTA方法GSICP提高了62.5%,比我們的基線SplaTAM提升了83%。盡管在TUM RGB-D和ScanNet數(shù)據(jù)集中存在曝光變化和運(yùn)動(dòng)模糊等挑戰(zhàn)因素,GauS-SLAM仍保持了競(jìng)爭(zhēng)力。值得注意的是,在ScanNet的某些序列中,它甚至超過了具有閉環(huán)校正的SLAM方法。
2.渲染和重建性能
在表1展示了GauS-SLAM在Replica數(shù)據(jù)集上的渲染和重建性能。盡管2DGS的渲染質(zhì)量已被實(shí)驗(yàn)證明不如3DGS,但GauS-SLAM卻超越了大多數(shù)基于3D高斯的方法。值得注意的是,它在峰值信噪比(PSNR)上比我們的基線算法SplaTAM高出6分貝。這一改進(jìn)歸功于我們新穎的基于局部地圖的設(shè)計(jì),這使得高斯基元的初始化更加準(zhǔn)確。更詳細(xì)的比較見圖4。通過采用表面感知深度渲染方法,我們的方法在深度L1和F1分?jǐn)?shù)方面均優(yōu)于其他基于高斯的算法。值得注意的是,各向同性高斯基元往往會(huì)產(chǎn)生不均勻的網(wǎng)格表面,如圖5所示,而2D高斯點(diǎn)則能產(chǎn)生明顯更平滑的結(jié)果。
3.幾何一致性
為了評(píng)估渲染方法的幾何一致性,我們?cè)O(shè)計(jì)了以下實(shí)驗(yàn)。首先,我們?cè)赗eplicaRoom0數(shù)據(jù)集的前四幀上使用真實(shí)姿態(tài)對(duì)模型進(jìn)行完全訓(xùn)練。然后,我們計(jì)算前60個(gè)視角下渲染深度圖的平均L1誤差,將其作為幾何一致性評(píng)估的指標(biāo),該指標(biāo)用于消融研究。我們?cè)趫D6中展示了第40幀和第55幀的誤差圖。雖然2DGS展示了更高的視圖一致性,但在物體邊界區(qū)域也觀察到了顯著的深度誤差。這種現(xiàn)象的發(fā)生是因?yàn)閬?lái)自不同表面的深度值共同影響最終的渲染深度。我們提出的表面感知深度渲染策略有效地減輕了被遮擋表面對(duì)渲染結(jié)果的影響,從而增強(qiáng)了幾何一致性。
4.運(yùn)行時(shí)間比較
表3展示了GauS在Room0序列(分辨率為1200×680)上跟蹤和建圖過程的平均每幀時(shí)間。與我們的基線SplaTAM相比,GauS-SLAM我們不僅在渲染質(zhì)量和跟蹤精度方面取得了顯著改進(jìn),而且在時(shí)間效率上提高了三倍多。具體而言,我們開發(fā)了一個(gè)更高效的模型GauS-SLAM-S,將跟蹤迭代次數(shù)從40次減少到25次,并減少了建圖次數(shù)。迭代次數(shù)從40次減少到30次,同時(shí)將關(guān)鍵幀閾值降低至5%。
04總結(jié)
在本文中,我們探討了高斯表示法中相機(jī)跟蹤的兩個(gè)關(guān)鍵挑戰(zhàn):多視圖場(chǎng)景中的幾何失真以及幀對(duì)模型對(duì)齊過程中的異常值剔除。為了解決這些問題,我們基于2DGS提出了一種表面感知深度渲染策略,并設(shè)計(jì)了一個(gè)融合關(guān)鍵幀和局部地圖的SLAM系統(tǒng)。我們的實(shí)驗(yàn)結(jié)果表明,所提出的GauS-SLAM在四個(gè)基準(zhǔn)數(shù)據(jù)集上的跟蹤和渲染性能均優(yōu)于基線方法。特別是在Replica和ScanNet++數(shù)據(jù)集上,它實(shí)現(xiàn)了最先進(jìn)的跟蹤性能,突顯了2D高斯在相機(jī)跟蹤任務(wù)中的有效性。
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7625瀏覽量
90030 -
SLAM
+關(guān)注
關(guān)注
24文章
433瀏覽量
32297 -
三維重建
+關(guān)注
關(guān)注
0文章
27瀏覽量
10041
原文標(biāo)題:精度與效率的雙重突破!基于高斯的稠密視覺SLAM
文章出處:【微信號(hào):gh_c87a2bc99401,微信公眾號(hào):INDEMIND】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
解讀多傳感器融合SLAM技術(shù)的發(fā)展趨勢(shì)
什么是SLAM?視覺SLAM怎么實(shí)現(xiàn)?

激光SLAM與視覺SLAM有什么區(qū)別?
基于視覺的slam自動(dòng)駕駛
單目視覺SLAM仿真系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
視覺SLAM的技術(shù)資料總結(jié)
基于深度學(xué)習(xí)的視覺SLAM綜述
一種基于直接法的動(dòng)態(tài)稠密SLAM方案
視覺SLAM開源方案匯總 視覺SLAM設(shè)備選型

視覺SLAM是什么?視覺SLAM的工作原理 視覺SLAM框架解讀

什么是SLAM?基于3D高斯輻射場(chǎng)的SLAM優(yōu)勢(shì)分析
MG-SLAM:融合結(jié)構(gòu)化線特征優(yōu)化高斯SLAM算法

評(píng)論