作者:魚骨 | 來源:3D視覺工坊
摘要
傳統(tǒng)的同步定位與制圖(SLAM)系統(tǒng)使用環(huán)境的靜態(tài)點(diǎn)作為實(shí)時(shí)定位和制圖的特征。當(dāng)可用的點(diǎn)特征很少時(shí),系統(tǒng)很難實(shí)現(xiàn)。一個(gè)可行的解決方案是引入線特征。在包含豐富線段的復(fù)雜場景中,線段的描述差別不大,這可能導(dǎo)致線段數(shù)據(jù)的不正確關(guān)聯(lián),從而將誤差引入系統(tǒng)并加劇系統(tǒng)的累積誤差。針對(duì)這一問題,本文提出了一種結(jié)合語義不變量的點(diǎn)線立體視覺SLAM系統(tǒng)。該系統(tǒng)通過融合線特征和圖像語義不變信息,提高了線特征匹配的準(zhǔn)確性。在定義誤差函數(shù)時(shí),將語義不變量與重投影誤差函數(shù)融合,并應(yīng)用語義約束減少長期跟蹤過程中姿態(tài)的累積誤差。在TartanAir數(shù)據(jù)集和KITTI數(shù)據(jù)集的Office序列上的實(shí)驗(yàn)表明,該系統(tǒng)在一定程度上提高了直線特征的匹配精度,抑制了SLAM系統(tǒng)的累積誤差,平均相對(duì)位姿誤差(RPE)分別為1.38和0.0593米。
總結(jié):
(1)提出了一種結(jié)合語義不變量的點(diǎn)線立體視覺SLAM系統(tǒng)
(2)將語義不變量與重投影誤差函數(shù)融合定義誤差函數(shù),并應(yīng)用語義約束減少長期跟蹤過程中姿態(tài)的累積誤差
(3)TartanAir數(shù)據(jù)集和KITTI數(shù)據(jù)集
引言
自工業(yè)4.0推出以來,機(jī)器人主導(dǎo)的智能制造產(chǎn)業(yè)已成為工業(yè)發(fā)展的支柱。視覺同步定位和映射(SLAM)系統(tǒng)是允許機(jī)器人探索未知環(huán)境、自我定位和構(gòu)建地圖的核心組件。視覺SLAM依靠廉價(jià)的輕型攝像機(jī),可以有效地感知環(huán)境的外觀,這使得僅依賴視覺傳感器的SLAM系統(tǒng)成為機(jī)器人領(lǐng)域的熱點(diǎn)問題。視覺SLAM系統(tǒng)的框架正在走向成熟。盡管視覺SLAM的研究領(lǐng)域已經(jīng)取得了很大的進(jìn)展,然而真實(shí)環(huán)境的可變性使得數(shù)據(jù)關(guān)聯(lián)的準(zhǔn)確性不可靠甚至無效。這導(dǎo)致系統(tǒng)的魯棒性降低,難以滿足實(shí)際需求。因此,如何提高數(shù)據(jù)關(guān)聯(lián)的魯棒性,對(duì)于減少視覺SLAM的累積誤差,提高系統(tǒng)的整體魯棒性具有重要意義。根據(jù)所采用的跟蹤方法,將視覺SLAM系統(tǒng)分為直接跟蹤和間接跟蹤兩種方法。基于直接跟蹤的方法,如大尺度直接單目SLAM (LSD-SLAM)、直接稀疏里程計(jì)(DSO)和半直接單目視覺里程計(jì)(SVO),是基于最小化光度投影誤差的姿態(tài)估計(jì)方法。這些方法對(duì)光照變換很敏感,對(duì)單個(gè)像素的區(qū)分很差。相比之下,基于間接跟蹤的方法通過跟蹤圖像的點(diǎn)特征估計(jì)相機(jī)的姿態(tài)。代表性算法有并行跟蹤與映射(PTAM)、ORB-SLAM2、RGBD SLAM-v2等。在強(qiáng)紋理場景中,點(diǎn)特征對(duì)光照不敏感,易于提取。然而,在低紋理環(huán)境或運(yùn)動(dòng)模糊的場景中,提取是困難的。影響系統(tǒng)的魯棒性,嚴(yán)重時(shí)可能導(dǎo)致系統(tǒng)失效。在實(shí)際環(huán)境中,有大量的線特征具有與點(diǎn)特征相同的不變光照和視點(diǎn)特征,且易于提取。因此,可以克服低紋理場景造成的干擾,反映環(huán)境結(jié)構(gòu)的完整信息。因此,涉及跟蹤線特征的SLAM系統(tǒng)誕生了。線特征對(duì)遮擋很敏感,在缺乏紋理或高重復(fù)的區(qū)域不具有很強(qiáng)的識(shí)別能力,這導(dǎo)致匹配失敗,比只依賴點(diǎn)特征的SLAM系統(tǒng)更不可靠的位姿求解。直線特征的跟蹤非常耗時(shí),不能滿足SLAM系統(tǒng)的實(shí)時(shí)性要求。因此,點(diǎn)和線特征融合被應(yīng)用到SLAM系統(tǒng)中。
為了減少累積誤差的產(chǎn)生,現(xiàn)有的解決方案是通過在短期內(nèi)建立多幀圖像之間的約束,對(duì)位姿進(jìn)行局部優(yōu)化,減少軌跡漂移。當(dāng)約束失敗時(shí),誤差仍然會(huì)累積。另一種解決方案是采用閉環(huán)來建立一個(gè)長期約束來糾正累積誤差,但這種解決方案嚴(yán)格依賴閉環(huán)檢測。
近年來計(jì)算機(jī)圖像技術(shù)的快速發(fā)展,如深度學(xué)習(xí)、目標(biāo)檢測、語義分割等,為機(jī)器人提高場景理解提供了更多的可能性。語義分割是一種像素級(jí)分類技術(shù)。圖像中的每個(gè)像素被劃分為相應(yīng)的類別。在SLAM系統(tǒng)中應(yīng)用語義分割來提高數(shù)據(jù)關(guān)聯(lián)的魯棒性是一個(gè)比較熱門的研究課題。在SLAM系統(tǒng)中,隨著時(shí)間的推移,相機(jī)的運(yùn)動(dòng)會(huì)導(dǎo)致視點(diǎn)、尺度和光照等特征的變化,但語義描述不會(huì)發(fā)生變化。比如在汽車上跟蹤線段時(shí),由于距離的變化,線段周圍的像素發(fā)生了劇烈的變化,這導(dǎo)致跟蹤失敗。但是這條線段的語義描述屬于汽車類,不受尺度和光照變化的影響。然后將線段的語義描述視為不變的,通過線段語義標(biāo)簽的一致性約束及其重投影特征建立線段的中期跟蹤。
目前,線段相關(guān)的理論發(fā)展還不夠成熟,主要表現(xiàn)在線段描述不夠準(zhǔn)確,這可能導(dǎo)致在包含許多線段的復(fù)雜場景中出現(xiàn)錯(cuò)誤的數(shù)據(jù)關(guān)聯(lián)。這就導(dǎo)致了在基于點(diǎn)-線特征的SLAM系統(tǒng)中引入線段后,線段的匹配精度較低,導(dǎo)致系統(tǒng)誤差積累。
?本文提出了一種結(jié)合語義不變量的點(diǎn)和線特征的魯棒立體SLAM系統(tǒng)。
?提出了一種改進(jìn)的線段匹配方法。將語義分割的結(jié)果應(yīng)用到線段匹配中,提高了線段的數(shù)據(jù)關(guān)聯(lián)。
?定義線段的語義重投影誤差函數(shù),并將其應(yīng)用于位姿優(yōu)化過程,以提高數(shù)據(jù)關(guān)聯(lián)的魯棒性。實(shí)現(xiàn)了線段的中期跟蹤,減少了軌跡漂移問題。
系統(tǒng)概述
本文以立體點(diǎn)線SLAM系統(tǒng)為基礎(chǔ),針對(duì)線段引入后,線段的不匹配直接影響數(shù)據(jù)關(guān)聯(lián)的準(zhǔn)確性,加劇了系統(tǒng)的累積誤差的問題。提出了一種有效的改進(jìn)方法。該方法使用語義不變量為線段匹配提供約束,減少了線段特征失配的產(chǎn)生。定義了線段的語義重投影誤差函數(shù),實(shí)現(xiàn)了線段的中期跟蹤,有效地減少了軌跡漂移,提高了系統(tǒng)的魯棒性。如下圖所示為提出的系統(tǒng)的總體結(jié)構(gòu)。該系統(tǒng)遵循ORB-SLAM2框架,整個(gè)SLAM任務(wù)按照可視化里程計(jì)、局部映射和閉環(huán)三個(gè)線程并行運(yùn)行。
在本文中,語義分割的結(jié)果主要應(yīng)用于視覺里程測量和局部姿態(tài)優(yōu)化。如下圖所示,系統(tǒng)接收到圖像序列,然后進(jìn)行點(diǎn)和線特征的提取和匹配。由于點(diǎn)特征的提取和匹配方法比線段更完備,語義分割結(jié)果只適用于線段的關(guān)聯(lián)。在現(xiàn)有線段關(guān)聯(lián)方法的基礎(chǔ)上,利用語義分割的結(jié)果對(duì)線段進(jìn)行語義分類。這提供了線段關(guān)聯(lián)的語義不變約束,減少了不正確的數(shù)據(jù)關(guān)聯(lián)。當(dāng)獲得點(diǎn)特征和線特征的關(guān)聯(lián)結(jié)果時(shí),將局部地圖中的地標(biāo)(點(diǎn)和線段)分別投影到當(dāng)前幀及其對(duì)應(yīng)的語義分割圖像中。然后,通過最小化重投影誤差項(xiàng)和重投影誤差項(xiàng)的聯(lián)合語義不變量來進(jìn)行姿態(tài)優(yōu)化。
方法
在本節(jié)中,我們首先介紹LSD算法提取線段的預(yù)處理細(xì)節(jié),以及如何應(yīng)用語義分割的結(jié)果約束線段的數(shù)據(jù)關(guān)聯(lián)。然后描述了利用語義不變量建立點(diǎn)、線特征的中期數(shù)據(jù)關(guān)聯(lián)后,如何進(jìn)行位姿優(yōu)化的問題。
1、線段的預(yù)處理與關(guān)聯(lián)
線段提取采用LSD算法。LSD算法是一種局部直線檢測算法,可以在不調(diào)整參數(shù)的情況下快速提取圖像的局部直線輪廓。然而,由于遮擋或部分模糊等原因,線段被分割成幾條直線。為了解決這一問題,本文采用[18]文獻(xiàn)中的方法對(duì)折線段進(jìn)行合并。折線段是否滿足合并條件由端點(diǎn)之間的距離和線段之間的距離共同決定。刪除合并后不符合長度閾值的線段。當(dāng)預(yù)處理完成后,該方法對(duì)線段進(jìn)行語義分類。線段是否屬于語義范疇的判定原則如下:
(1)檢測到的線段在類別區(qū)域的長度大于閾值d;
(2)如果檢測到的線段位于多個(gè)語義類別的邊界,則將其標(biāo)記為概率最高的類別。
利用Detectron2對(duì)圖像進(jìn)行語義分割預(yù)測。預(yù)測由地面和非地面組成。然后,根據(jù)上述規(guī)則對(duì)線段進(jìn)行分類。分類結(jié)果如圖5所示。
線段的數(shù)據(jù)關(guān)聯(lián)應(yīng)保證線段屬于同一語義類,具有較高的相關(guān)性。線段的相關(guān)性由線段的局部外觀描述確定,該描述由LBD描述符提供。
2、點(diǎn)和線重投影誤差函數(shù)的語義不變量融合
在SLAM系統(tǒng)中,減少軌跡累積誤差主要有兩種方法。一是通過幀間數(shù)據(jù)關(guān)聯(lián)優(yōu)化姿態(tài),減少軌跡漂移,這是一個(gè)短期約束。另一種方法依靠閉環(huán)檢測進(jìn)行位姿校正,在圖像框架中建立長期約束。VSO利用圖像的語義分割信息建立點(diǎn)對(duì)的中期數(shù)據(jù)關(guān)聯(lián)。線段也具有語義不變性。因此,我們的方法利用這一性質(zhì)來建立線段上的中期數(shù)據(jù)關(guān)聯(lián)。圖6給出了攝像機(jī)運(yùn)動(dòng)過程中點(diǎn)與線特征的數(shù)據(jù)關(guān)聯(lián)過程。紅線表示視覺里程計(jì)框架中基于外觀的特性約束,綠線表示基于語義的約束。攝像頭1和攝像頭2可以建立基于外觀的特征約束和基于語義的特征約束。在攝像機(jī)移動(dòng)過程中,由于對(duì)特征外觀的描述發(fā)生了劇烈的變化,在第k個(gè)攝像機(jī)中只能觀察到特征的語義約束。與基于外觀的約束相比,這種語義約束可以為特征數(shù)據(jù)關(guān)聯(lián)提供更長期的約束,這被稱為特征的中期跟蹤。
我們將語義不變量與重投影誤差結(jié)合起來定義了一個(gè)誤差函數(shù):
其中Ebase是重投影誤差,Esem是融合語義不變量的誤差函數(shù)。通過最小化誤差函數(shù),實(shí)現(xiàn)了點(diǎn)特征和線特征的中期跟蹤,減少了軌跡的漂移。
(1)Ebase的定義
基于點(diǎn)線特征的立體SLAM系統(tǒng)通常通過最小化重投影誤差,給定輸入,對(duì)應(yīng)的位姿
,三維點(diǎn)
,三維線段
來實(shí)現(xiàn)局部姿態(tài)優(yōu)化。重投影誤差函數(shù)Ebase定義如下:
其中Ep和EL分別表示點(diǎn)特征和線段的重投影誤差,Ep是第i個(gè)三維點(diǎn)的觀測值與其在第k個(gè)關(guān)鍵幀上的投影之間的距離為:
其中π(·)為三維點(diǎn)Pi的重投影坐標(biāo),k為攝像機(jī)的本征矩陣,Tk是相對(duì)運(yùn)動(dòng)矩陣。
由于遮擋或其他原因,線段的端點(diǎn)出現(xiàn)了不確定性。因此,線段的重投影誤差函數(shù)不能簡單地用觀測線與其重投影之間的坐標(biāo)距離來定義。更精確的方法是使用文獻(xiàn)[19]中的方法,其中線段的重投影誤差定義為投影線段的端點(diǎn)與被測直線之間的垂直距離之和。如圖7所示,lo表示線段的觀測值,lp表示三維線段的重投影,和表示直線重投影誤差。因此,EL定義為:
(2)Eseg的定義
融合語義不變量的誤差函數(shù)描述了點(diǎn)和線特征在重投影后屬于C類的概率。與VSO中闡述的現(xiàn)象一致,在攝像機(jī)運(yùn)動(dòng)過程中,由于周圍的像素信息,特征會(huì)發(fā)生劇烈變化。因此,在數(shù)據(jù)關(guān)聯(lián)中,特征的這一部分的約束就消失了。相比之下,特征的語義描述在尺度變化時(shí)保持不變。因此,將這種語義不變性應(yīng)用到數(shù)據(jù)關(guān)聯(lián)中,建立特征約束,延長特征的有效跟蹤時(shí)間,減少累積誤差的產(chǎn)生。
對(duì)于輸入的,進(jìn)行語義分割,對(duì)應(yīng)的語義分割圖像是
。對(duì)于Is中的每一個(gè)像素有一個(gè)類別C。然后,對(duì)于投影到Isk的一個(gè)三維點(diǎn)P?i?,投影坐標(biāo)為μ?i?,投影坐標(biāo)有一個(gè)語義類別μ?i?∈c,其中c是C的一個(gè)子類別。在VSO中定義了基于點(diǎn)特征的語義觀測概率模型:
其中表示從投影坐標(biāo)μi到語義類別C最近邊界的距離。σ描述語義類別C的不確定性,則點(diǎn)特征融合語義不變量上的誤差函數(shù)可定義為:
其中,為類別概率向量,描述了Pi被一系列攝像機(jī)觀測到的情況,并且類別屬于C。這將導(dǎo)致:
其中α是用于保證的常數(shù)。
同樣,對(duì)于一個(gè)三維線段Lj,它在Isk的投影也會(huì)使所投影的線段Lj具有一個(gè)語義類別j∈C。通過計(jì)算投影線段的兩個(gè)端點(diǎn)以及線段中點(diǎn)到語義類C最近邊界的距離來描述重投影線段屬于語義類C的概率。可以確定線段中點(diǎn)離C最近邊界的距離越小,線段屬于C類的可能性越大。為了確保大多數(shù)線段屬于C類,到語義區(qū)域最近邊界距離最小的端點(diǎn)也應(yīng)該被聯(lián)合考慮。
其中,dm和de分別表示從中點(diǎn)和端點(diǎn)到邊界的距離。
因此,投影線段屬于C類的概率用投影線段的中點(diǎn)和端點(diǎn)到C類邊界的距離來描述。線段的語義似然模型定義如下:
線段融合語義不變量的誤差可定義為:
其中為類別概率向量,描述一系列攝像機(jī)觀測到的線段Lj,類別屬于C的情況:
聯(lián)合語義不變量的誤差函數(shù)定義如下:
實(shí)驗(yàn)
本節(jié)通過一系列的實(shí)驗(yàn)來驗(yàn)證本文提出的系統(tǒng)的有效性。利用彩色圖像進(jìn)行語義分割是十分必要的。因此,使用公開可用的TartanAir數(shù)據(jù)集和KITTI數(shù)據(jù)集執(zhí)行驗(yàn)證,這兩個(gè)數(shù)據(jù)集都提供了ground-truth的顏色序列。TartanAir數(shù)據(jù)集是一個(gè)室內(nèi)場景數(shù)據(jù)集,KITTI數(shù)據(jù)集是一個(gè)室外場景數(shù)據(jù)集。我們將我們的方法與幾種最先進(jìn)的方法進(jìn)行了比較,包括ORB-SLAM2和PL-SLAM。所有實(shí)驗(yàn)都是在一臺(tái)CPU為Intel i5-4200U、內(nèi)存為4GB、操作系統(tǒng)為Ubuntu 16.04的筆記本電腦上進(jìn)行的。語義分割結(jié)果是使用Facebook AI Research推出的Detectron2算法得到的。實(shí)驗(yàn)結(jié)果表明:
(1)添加語義不變量后,線段之間的不匹配明顯降低,線段匹配的準(zhǔn)確率提高。
(2)在沒有動(dòng)態(tài)目標(biāo)干擾的室內(nèi)場景中,該方法能較好地抑制軌跡漂移
(3)將語義不變性的結(jié)果應(yīng)用于戶外場景的SLAM系統(tǒng)并不一定能有效地減少系統(tǒng)的軌跡漂移。產(chǎn)生這種結(jié)果的原因可能是室外場景的語義分割精度不夠高,語義類別劃分不夠精細(xì),以及受到動(dòng)態(tài)對(duì)象的影響。
(4)我們的系統(tǒng)基本能夠滿足實(shí)時(shí)性的要求。
結(jié)論
本文提出了一種融合語義不變量的點(diǎn)線立體SLAM系統(tǒng)。為了提高線段數(shù)據(jù)關(guān)聯(lián)的準(zhǔn)確性,給出了線段的語義類別標(biāo)簽。通過聯(lián)合語義不變量定義線段上的重投影誤差函數(shù),實(shí)現(xiàn)線段的中期跟蹤,使系統(tǒng)在進(jìn)行局部優(yōu)化時(shí)獲得更好的結(jié)果,減少了軌跡中累積誤差的產(chǎn)生。在TartanAir數(shù)據(jù)集和KITTI數(shù)據(jù)集上驗(yàn)證了該方法的有效性。將實(shí)驗(yàn)結(jié)果與ORB-SLAM2和PL-SLAM系統(tǒng)進(jìn)行了比較。結(jié)果表明,該算法能有效地提高系統(tǒng)的魯棒性,減少大部分序列的軌跡漂移。但是,由于對(duì)語義分割信息進(jìn)行了預(yù)處理,在系統(tǒng)中沒有對(duì)原始圖像進(jìn)行直接的實(shí)時(shí)分割。因此,后續(xù)將考慮實(shí)時(shí)語義分割的應(yīng)用,進(jìn)一步提高系統(tǒng)的完整性。
審核編輯:湯梓紅
-
傳感器
+關(guān)注
關(guān)注
2558文章
52025瀏覽量
760627 -
機(jī)器人
+關(guān)注
關(guān)注
212文章
29137瀏覽量
210568 -
函數(shù)
+關(guān)注
關(guān)注
3文章
4361瀏覽量
63619 -
SLAM
+關(guān)注
關(guān)注
23文章
430瀏覽量
32209
原文標(biāo)題:結(jié)合語義不變量的點(diǎn)線立體視覺SLAM系統(tǒng)
文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
基于多模態(tài)語義SLAM框架
一種自動(dòng)的輪轂識(shí)別分類方法
一種多徑環(huán)境下的調(diào)制識(shí)別算法
基于不變量的軟錯(cuò)誤檢測方法
高仙SLAM具體的技術(shù)是什么?SLAM2.0有哪些優(yōu)勢?
一種融合語義模型的二分網(wǎng)絡(luò)推薦算法

基于視覺傳感器的ORB-SLAM系統(tǒng)的學(xué)習(xí)
一種快速的激光視覺慣導(dǎo)融合的slam系統(tǒng)
基于視覺傳感器的SLAM系統(tǒng)學(xué)習(xí)
一種端到端的立體深度感知系統(tǒng)的設(shè)計(jì)

一個(gè)動(dòng)態(tài)環(huán)境下的實(shí)時(shí)語義RGB-D SLAM系統(tǒng)

一種基于RGB-D圖像序列的協(xié)同隱式神經(jīng)同步定位與建圖(SLAM)系統(tǒng)

一種完全分布式的點(diǎn)線協(xié)同視覺慣性導(dǎo)航系統(tǒng)

利用VLM和MLLMs實(shí)現(xiàn)SLAM語義增強(qiáng)

一種基于點(diǎn)、線和消失點(diǎn)特征的單目SLAM系統(tǒng)設(shè)計(jì)

評(píng)論