針對現有VSLAM系統語義表達不足、地圖可解釋性差的問題,本文提出vS-Graphs,一種實時多線程VSLAM框架。該方案顯著提升了重建地圖的語義豐富度、可解釋性及定位精度。實驗表明,vSGraphs優于當前最先進的VSLAM方法,在真實數據上平均降低3.38%的軌跡誤差,最大降幅達9.58%。同時,所提出的框架還具有良好的可擴展性,能夠處理大規模場景。此外,僅通過視覺特征,本框架實現的語義實體檢測精度即可媲美基于激光雷達的精密框架,表現出優秀的環境驅動型語義感知能力。
? 文章:
vS-Graphs: Integrating Visual SLAM and Situational Graphs through Multi-level Scene Understanding
? 作者:
Ali Tourani, Saad Ejaz, Hriday Bavle, David Morilla-Cabello, Jose Luis Sanchez-Lopez, Holger Voos
? 論文鏈接:
https://arxiv.org/abs/2503.01783
? 編譯:
INDEMIND
01本文核心內容
在SLAM的研究背景下,強大的環境理解作為機器人情境感知的核心基礎,高度依賴傳感器數據的質量和類型。雖然在SLAM中已采用了各種傳感模式(例如激光雷達和相機),但視覺傳感器提供了一種經濟高效的解決方案,以確保豐富的地圖重建,形成了VSLAM專門類別。在視覺傳感器中,RGB-D相機提供了視覺和深度信息的豐富融合。這類傳感器解決了單目相機和激光雷達的局限性,生成密集的點云,以提供詳細的環境元素的空間信息、精確檢測、定位和建圖。為了增強VSLAM的能力,計算機視覺技術被整合進來,從語義場景理解算法到引入像ArUco標記這樣的人工地標。
除了利用視覺和深度數據豐富地圖之外,還可以采用各種方法將數據組織成易于理解的結構。其中,場景圖是結構化的表示形式,用于描述場景中的對象及其關系。通過將場景圖與VSLAM相結合,可以實現對環境的更高級理解,包括對象識別、關系推理和場景分類。這種結合不僅提高了地圖的質量,還增強了機器人在復雜環境中的導航和交互能力。掃描環境記錄了“物體”的存在、其屬性以及相互關系。它們為場景理解提供了更高層次的抽象,生成分層(即基于圖的)環境表示,概述了觀察到的物體之間的空間關聯。雖然有的方法側重于為可靠的環境解釋量身定制幾何和語義信息,但像S-Graphs這樣的其他工作則通過將場景圖直接納入SLAM來突破界限。S-Graphs在統一的優化系統中使用激光雷達里程計和平面表面提取,而Hydra則從給定的傳感器數據(即相機姿態和點云)實時構建3D場景圖。
受S-Graphs的啟發,本文提出了一種實時VSLAM框架,名為視覺S-Graphs(vS-Graphs),它將場景圖生成直接集成到SLAM過程中。vS-Graphs是一個實時系統,利用視覺和深度數據來增強地圖重建和相機姿態估計。它可靠地整合了“建筑組件”(即墻壁和地面表面)、“結構元素”(即門、窗和柱子)以及“物體”(即家具和裝飾品)的信息,從而實現更精確的場景理解和地圖構建。vS-Graphs將檢測到的房間和走廊及其關聯關系整合到重建的地圖中,以獲得更精確和結構化的環境表示。因此,它利用檢測到的建筑組件作為較低層級的、由環境驅動的語義實體來識別潛在的結構元素,從而通過施加額外的語義約束來提高VSLAM系統的精度。最終,vS-Graphs生成具有分層優化能力的可理解的3D場景圖,將底層SLAM的機器人姿態與檢測到的實體相匹配,如圖1所示。它還可以利用(如果存在的話)基準標記,將元數據添加到檢測到的結構元素中。
本文的貢獻可概括為:
? 一種實時多線程的VSLAM框架,在重建地圖的同時生成分層可優化的3D場景圖。
? 一種基于視覺的識別和繪制建筑組件(即墻壁和地面表面)的方法,豐富了地圖內容并減少了軌跡誤差。
? 一種從局部建筑組件中提取高級結構元素(例如房間和走廊)的解決方案,以提高場景理解能力。
02方法架構
在ORB-SLAM3的基礎上,vS-Graphs對其核心模塊進行了重大修改,并添加了新的線程以實現穩健的場景分析和重建。如圖2所示的系統架構詳細說明了各個線程、組件及其相互連接。當前版本支持RGB-D輸入,利用深度數據實現穩健的場景理解。其核心貢獻在于無縫集成兩個新穎的線程:“建筑組件識別”和“結構元素識別”。這兩個線程在vS-Graphs中緊密集成,由其他線程觸發,以豐富重建的地圖并實現最佳性能。
在核心部分,RGB-D數據實時處理,提供視覺和深度信息。同時,“基準標記檢測”(本研究中使用ArUco庫)獨立運行于輸入幀上,檢測潛在的標記,并將其唯一標識符和姿態存儲在地圖管理器Atlas中。在“跟蹤”線程中,從連續幀中提取并跟蹤視覺特征。在此線程中,姿態信息要么被初始化,要么被優化。根據地圖重建階段,創建包含跨幀跟蹤特征的3D地圖。最后,關鍵幀選擇這一關鍵步驟在特征提取之后通過分析視覺數據來執行。這些關鍵幀包含3D地圖點、點云以及可能檢測到的基準標記,為后續處理奠定基礎。關鍵幀隨后被發送到“局部映射”線程進行地圖整合和優化,剔除定位不準確的關鍵幀以提高精度。同時,“建筑組件識別”線程通過處理關鍵幀級別的點云來識別和定位墻壁和地面表面。“結構元素識別”線程則以固定的時間間隔運行,從活動地圖中提取更高層次的實體,包括房間和走廊。最終,由于“閉環檢測”,如果當前位置已被重新訪問,系統會校正或合并地圖,并在檢測到閉環時觸發“全局束調整”以優化地圖。
03實驗結果
1. 評估標準
評估是在配備英特爾i9-11950H處理器(2.60GHz)、4GBNVIDIAT600移動GPU和32GB內存的系統上進行。vS-Graphs通過標準基準測試(真實和逼真)以及內部專有數據集進行了評估。內部數據是使用一種名為AutoSense的定制手持/機器人可安裝設備收集的,該設備可同時記錄RGB-D視頻和激光雷達點云。收集的AutoSense數據集包含各種真實世界室內環境的序列,其建筑布局各不相同,如圖4所示。在一些房間中戰略性地放置了ArUco標準標記,以增強語義信息(即房間標簽)。此外,數據集中的地面實況數據是通過S-Graphs生成的可靠激光雷達姿態和點云獲得的。由于篇幅限制,完整的評估結果和圖表可在https://snt-arg.github.io/vsgraphs-results/查看。
2. 軌跡估計與建圖性能
為了展示vS-Graphs的軌跡估計精度,將其與ORBSLAM3(基準)、ElasticFusion以及BADSLAM進行了比較,因為它們在視覺同步定位與建圖(VSLAM)領域具有較強的魯棒性和廣泛的應用。由于標記依賴型和神經場SLAM方法使用外部姿態約束并需要特征標記來整合語義實體,這限制了它們在無標記數據實例中的適用性,因此未將其納入評估。此外,神經RGB-D方法依賴于其學習到的場景先驗知識和隱式表示,與所提出的映射策略不同。表1展示了評估結果,每個系統在數據集實例上進行了八次運行評估,性能通過絕對軌跡誤差(ATE)以米為單位進行衡量。表1中的破折號表示由于跟蹤失敗而無法獲取的數據。
根據評估結果,vS-Graphs一直保持著最先進的性能,在幾乎所有情況下都取得了最佳或次佳的結果。這種卓越的性能在較長的軌跡中尤為明顯,真實世界的序列源自于整合從精確定位的建筑組件和結構元素中得出的約束條件。雖然納入這些實體能夠增強軌跡估計,但對其不準確的映射和定位可能會對結果產生負面影響。這種情況主要與快速的相機運動(序列deer-gr)和有噪聲的點云數據(序列office1-7)有關。平均而言,vS-Graphs在所有序列中比基準方法提高了3.38%。此外,通過將重建地圖的精度與AutoSense的真實數據進行對比分析發現,vS-Graphs在均方根誤差(RMSE)方面比ORB-SLAM3表現得更為穩健。如圖5所示,vS-Graphs的中位RMSE始終更低,表明其整體映射精度更高。盡管vS-Graphs生成的地圖平均點數比基準方法少約10.15%,但它仍實現了更優的映射精度,這得益于其環境驅動的約束條件,使得重建更加連貫。
3. 場景理解性能
本節評估了vSGraphs在語義場景理解方面的性能,能夠準確檢測出解讀環境布局所必需的關鍵實體。為了對這一能力進行基準測試,使用了AutoSense數據集中包含多個房間的序列,因為它們提供了基于LiDAR數據的真實標注。表2對vS-Graphs與兩種最先進的方法進行了定量比較:Hydra和S-Graphs。盡管S-Graphs受益于LiDAR點云的幾何精度,但Hydra被配置為使用視覺點云,以確保與我們純視覺的方法進行公平比較。實驗結果表明,盡管vSGraphs僅依賴視覺輸入,但在檢測建筑構件和結構元素方面,其準確率與基于LiDAR的方法相當。這突顯了其視覺特征處理和場景圖生成在高精度理解環境方面的有效性。需要注意的是,Hydra并未直接提供“墻”實體,因此Hydra的性能其評估基于正確“房間”元素的計數和識別。此外,當前vS-Graphs的實現不包含“樓層”實體,因此在分析中予以舍棄。圖6對vS-Graphs、S-Graphs和Hydra在兩個數據集實例中生成的重建場景圖進行了定性比較。
4. 運行時分析
vS-Graphs實現了實時性能,平均處理速率為每秒22±3幀(FPS),超過了實時操作所需的20FPS閾值。這是通過多線程架構實現的,如圖7所示。“跟蹤”線程在幀級別處理視覺特征,而“局部建圖”線程則同時對物體進行建圖并優化其位置。“構建組件識別”線程在關鍵幀級別并行運行,從在線全景分割中識別潛在的墻壁和地面表面。“結構元素識別”線程運行頻率較低且周期固定(每兩秒一次),用于推斷地圖中的房間和走廊。與在相同硬件和數據集上ORB-SLAM3的29±3FPS相比,vS-Graphs略微降低的幀率是其豐富語義場景理解能力的合理權衡。
04總結
本文介紹了vS-Graphs,這是一種實時的VSLAM框架,它利用可優化的分層3D場景圖來重建機器人操作環境。為實現這一目標,該框架檢測建筑組件(如墻壁和地面),從中推斷出結構元素(如房間和走廊),并將它們全部整合到分層表示中。因此,除了通過整合這些有意義的實體來增強地圖重建外,vS-Graphs還提供了高級環境驅動語義對象之間空間關系的結構化和靈活表示。使用標準和內部的室內數據集進行的實驗結果表明,與基線和最先進的VSLAM方法相比,所提出的框架在真實世界收集的數據集實例中,將軌跡誤差降低了高達9.58%,從而實現了更優的軌跡估計和建圖性能。其他評估表明,vS-Graphs處理的視覺特征能夠有效地識別描述環境布局的語義實體,其準確性可與精確的激光雷達方法相媲美。未來的工作包括整合更多的建筑組件(例如天花板、窗戶和門道)以及結構元素(例如地板),以豐富重建的地圖,同時擴展對不規則房間布局(例如非矩形空間)和非線性墻壁(例如曲面)的檢測支持。
-
機器人
+關注
關注
212文章
29226瀏覽量
210750 -
視覺傳感器
+關注
關注
3文章
260瀏覽量
23147 -
激光雷達
+關注
關注
970文章
4132瀏覽量
191501 -
VSLAM
+關注
關注
0文章
25瀏覽量
4450
原文標題:語義豐富度超越現有VSLAM、精度媲美激光雷達!最新實時多線程VSLAM!
文章出處:【微信號:gh_c87a2bc99401,微信公眾號:INDEMIND】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
RT-Thread嵌入式實時多線程操作系統介紹
基于USB和多線程的實時數據采集系統
NP多線程防火墻的設計與實現
多線程在VC++串口通信程序中的應用
一種支持同時多線程的VLIW DSP架構
多線程細節問題學習筆記

mfc多線程編程實例及代碼,mfc多線程間通信介紹

評論