前情提要:
閱讀本篇論文的“實驗”部分時,覺得作者的實驗方案很完善且描述清晰,受益匪淺,因此本篇小記淡化了方法闡述,主要記錄作者的數(shù)據(jù)處理及分析過程,為自己之后設(shè)計類似實驗時提供方法參考及思路拓展。
摘要
對于圖像匹配任務(wù)來說,除了特征點之外,線特征也提供了額外的約束以解決機器人和計算機視覺(CV)中的視覺幾何問題。盡管最近基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的線描述符有望用于視點變化或動態(tài)環(huán)境,但我們認為CNN架構(gòu)在將可變線長度抽象為固定維描述符方面存在先天缺陷。
在本文中,我們有效地介紹了處理可變線段的Line-Transformers。自然語言處理(NLP)任務(wù)可以在神經(jīng)網(wǎng)絡(luò)中很好地理解和抽象句子。受此啟發(fā)我們將線段視為包含點(詞)的句子,通過動態(tài)地關(guān)注線上的可描述點,我們的描述符在可變線長度上表現(xiàn)出色。我們還提出了將線的幾何屬性共享到鄰域的線簽名網(wǎng)絡(luò)。
作為組描述符,網(wǎng)絡(luò)通過理解線的相對幾何結(jié)構(gòu)來增強線描述符。最后,我們在點線定位(PL-Loc)中展示了所提出的線描述符和匹配。實驗表明,使用本文線特征可以改進帶有特征點的視覺定位,并驗證了所提出的單應(yīng)性估計和視覺定位方法。
引言
雖然在SLAM和SFM中,特征點已經(jīng)被廣泛研究,但在圖像中分布不均勻的特征點可能會導(dǎo)致不穩(wěn)定和不準確的姿態(tài)估計。最近的研究表明,即使在弱紋理環(huán)境中,也可以通過使用點線特征增強SLAM性能。例如SLAM中廣泛使用的LBD線描述符,對于連續(xù)幀來說性能比較可靠,但對于寬基線圖像來說,會阻止基于線的方法在視覺定位中直接適應(yīng)線特征導(dǎo)致LBD描述符性能下降。
因此開始研究利用CNN來學(xué)習(xí)線描述符的表示,但CNN在研究可變線段的長度方面存在固有的弊端,基于上述問題,本文主要貢獻如下:
通過將線段視為句子,將點視為單詞,提出了一種使用transformer架構(gòu)的新型線段描述符。利用NLP作為線段描述符,可以處理各種可變長度的線段;
提出的線段描述符通過關(guān)注線段上更有意義的點來理解線段的上下文。它有效地將各種長度的線段抽象為固定大小的描述符;
建議在鄰域之間共享線屬性(例如,位置、角度、長度和描述符)信息的線簽名網(wǎng)絡(luò)。
方法
本文提出的Line-Transformers旨在線段的給定點上構(gòu)建線段描述符,如圖1所示,Line-Transformers由兩個主要部件組成:line transformers和line signature networks。
第一個組件使用線標記器從線段中提取點標記和嵌入??紤]到點嵌入的上下文,transformers將其歸納為線嵌入或線描述符。第二個組件通過與鄰域共享線的位置上下文來增強線描述符。
圖1 提出的Line-Transformers架構(gòu)
具體實施時,為了檢測圖像上的線段,文章使用了環(huán)境適用性較高的線段檢測器LSD,選擇SuperPoint作為前端描述符地圖。
實驗
本文根據(jù)單應(yīng)性估計和視覺定位性能評估所提出的線描述符。對于兩個測試場景,分別將所提方法與SuperPoint、LBD(手工繪制)、LLD、WLD和比較,此處LBD、LLD和WLD使用最近鄰匹配器,使用自身的線匹配器完成線特征匹配,同時將SuperPoint作為基于點特征的匹配參考。
A、單應(yīng)性估計
(1)數(shù)據(jù)集:使用Oxford和Paris數(shù)據(jù)集進行單應(yīng)性估計。為了從圖像對中建立真實線段對應(yīng)關(guān)系,首先從原始圖像及其增強圖像中檢測線段。然后使用已知的單應(yīng)矩陣將每條線的兩個端點投影到另外的線上。正確對應(yīng)的標準是:存在重疊、重投影誤差小于4個像素、角度差小于2度。得到的真實對應(yīng)關(guān)系表示為重疊相似矩陣。兩條線之間的重疊相似性用重疊線長度和較小線長度之間的比率表示:
其中重疊線長度是兩條線段的四個端點里面中間兩個端點間距離值。對于SuperPoint來說,真實點對應(yīng)關(guān)系由點投影誤差小于4個像素來表示。 (2)指標:首先利用2000次迭代的RANSAC實現(xiàn)基于線段的單應(yīng)性矩陣估計,基于此計算4個圖像角的平均重投影誤差,并記錄閾值為5、10和20個像素處累積誤差曲線(AUC)下的面積。
同時還基于匹配真值計算了匹配精度(P)和召回率(R)。 (3)結(jié)果:表1列出了各方法定量比較的結(jié)果??梢钥闯?,本文提出方法在F分數(shù)方面比其他線描述符方法有很大的優(yōu)勢(10.1%)。我們的方法除了低于5個像素的AUC之外,優(yōu)于其他所有單應(yīng)性估計指標。與SuperPoint相比,Line-Transformers在10和20像素以下的AUC下產(chǎn)生了更穩(wěn)定的性能。LLD在這個數(shù)據(jù)集上的性能很低,因為它最初是在連續(xù)幀中訓(xùn)練的,沒有大的視點變化。 表1 單應(yīng)性估計結(jié)果對比
準確率和召回率是對線匹配性能的直接而明確的度量,其僅取決于正確/錯誤匹配的數(shù)量。當(dāng)性能取決于匹配的數(shù)量、分布和質(zhì)量時,可以從單應(yīng)性估計中分析更多的隱藏性能。在這個意義上,所提出的方法滿足了可靠匹配的數(shù)量和質(zhì)量。
圖2 單應(yīng)性估計和視覺定位的線匹配定性結(jié)果對比
圖2顯示了基于單應(yīng)性估計的線匹配的定性結(jié)果。與其他線描述符相比,Line-Transformers通過產(chǎn)生更多正確匹配和更少錯誤匹配而具有更好的性能,其中LBD有許多不正確的匹配,導(dǎo)致匹配精度較低。
B、視覺定位
除了上述評價指標外,本文還通過估計三維線圖中的相機姿態(tài)評估線描述符,這里使用了ScanNet和Oxford Radar RobotCar數(shù)據(jù)集進行室內(nèi)外實驗,為了驗證本文所提方法的可推廣性,分別對室內(nèi)外環(huán)境應(yīng)用不同的訓(xùn)練方法。
(1)室內(nèi):首先生成線段對應(yīng)真值和三維線圖。基于深度圖選擇了滿足一定重疊的圖像對(40-80%)。由于深度圖中的潛在不確定性,此處將線分解為點序列,并檢查中間點以驗證線的對應(yīng)性。
(2)室外:在隨機選擇的序列影像中執(zhí)行視覺位置識別,以篩選出具有3D線特征的對應(yīng)參考圖像。此處沒有使用不可靠的GPS數(shù)據(jù),而是基于查詢圖像和參考圖像的點云,通過迭代最近點ICP來計算它們之間的真實相對姿態(tài),并排除了ICP適應(yīng)度較差的查詢參考圖像對。
(3)指標:記錄使用不同閾值(即室內(nèi)0.25m、10°/0.5m、10°/1.0m、10°,室外0.25m、2°/0.5m,5°/5.0m和10°)時正確定位的查詢圖像的百分比。此處使用20次迭代的RANSAC,通過PnPL估計相機姿態(tài)。相應(yīng)的利用PnP評估SuperPoint。本文分析了分別使用點、線、點和線的姿態(tài)估計結(jié)果,同時還分析了基于室內(nèi)匹配真值的匹配精度(P)和召回率(R)。
(4)結(jié)果:如表2所示,對于室內(nèi)外實驗,Line-Transformers在視覺定位和精確召回指標方面達到了其他線描述符中的最高性能。圖2中的定性結(jié)果也表明,Line-Transformers在成像變化(如模糊、視點和照明)方面表現(xiàn)強勁。 表2 視覺定位結(jié)果對比
但與單應(yīng)性估計不同,利用PnP的基于點的方法優(yōu)于所有基于線的方法。其中一個原因是在深度驗證期間3D線內(nèi)點的數(shù)量較少。雖然3D特征點直接由其對應(yīng)的深度像素確定,但一些3D線特征會在RANSAC中的深度線性驗證期間被過濾掉。
因此,在本文的映射方法中,基于線的定位比基于點的定位容易導(dǎo)致性能下降。然而,線特征還是可以補充點的性能,特別是當(dāng)點特征數(shù)較少或有偏差時。
C、可變線段長度
圖3(a)說明了整個圖具有向上的軌跡,從而表明當(dāng)線段延伸時,本文方法比其他基于CNN的線描述符表現(xiàn)得更好。
圖3 不同線段長度的性能差異
D、關(guān)于評估指標的討論
與假定一對一匹配的點特征不同,線檢測器傾向于在每個圖像對中將相同的線段分割成不同的小線段,因此線匹配是一個多對多的問題。例如,由于遮擋和分割,兩條不重疊的線可能源自一條線,它們在語義上應(yīng)該被認為是正確的對應(yīng)關(guān)系。因此精確召回度量的評估結(jié)果可能不太精確,因為它們不能考慮非重疊的線段對應(yīng)關(guān)系。
此時,視覺定位和單應(yīng)性估計相對來說更適合作為評估指標。因為在視覺定位中,因為PnL算法不考慮端點位置,所以非重疊但語義相同的線段也被認為是正確的匹配。另外單應(yīng)性估計雖然也不考慮端點,但僅限于真實場景中的平面,所以綜上所述,基于線的視覺定位是一種更好的選擇,可以同時評估大視角差異下的重疊和非重疊線匹配情況。
E、了解Line-Transformers
圖4(a)描述了點嵌入對構(gòu)建線描述符的貢獻。由圖4(b)可看出線描述符之間的注意力得分最初很低且分布廣泛,在稍后的層中逐漸收斂到少量相鄰線上。
圖4 可視化注意力得分
F、基于點線特征的視覺定位
盡管表2中基于特征點定位的表現(xiàn)總體較好,但仍可能會因少量點或有偏差的特征分布而導(dǎo)致結(jié)果惡化,因此可以引入線特征以互補的方式增強基于特征點的視覺定位。這里使用3D特征的重投影誤差定義基于點的定位失敗,并在重投影誤差小于四個像素時計算內(nèi)點。
然后,當(dāng)內(nèi)點的數(shù)量小于5或20時,額外執(zhí)行PL-Loc。如圖5(b)所示,PL-Loc為視覺定位提供了額外的增強效果,61%的情況下點表現(xiàn)優(yōu)于線段,這表明剩余39%的情況有可能通過線段得到改善。這也意味著點和線的適當(dāng)組合將提高整體定位性能。
圖5 點線特征互補定位
結(jié)論
本文受NLP任務(wù)處理不同長度的句子和段落的啟發(fā),提出了一種利用注意力機制有效處理可變長度的新型線描述符,同時還展示了一個同時利用特征點和特征線進行視覺定位的PL-Loc方法。實驗表明,本文所提線描述符在單應(yīng)性估計和視覺定位數(shù)據(jù)集中達到了最先進的性能。
審核編輯:劉清
-
SLAM
+關(guān)注
關(guān)注
23文章
430瀏覽量
32239 -
計算機視覺
+關(guān)注
關(guān)注
8文章
1705瀏覽量
46464 -
AUC
+關(guān)注
關(guān)注
0文章
9瀏覽量
6778 -
卷積神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
4文章
369瀏覽量
12117
原文標題:用于視覺定位的上下文感知線描述符(IEEE2021)
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
USB描述符詳解
usb標準描述符之技巧
USB HID報告及報告描述符簡介
Descriptor描述符解釋
Linux中文件及文件描述符概述
USB設(shè)備鍵值表描述符說明資料免費下載

USB各描述符之間的依賴是怎么樣的

隱藏描述符工具應(yīng)用程序免費下載

Linux系統(tǒng)編程中的文件描述符調(diào)用

科普一下什么是USB的描述符
Gadget框架構(gòu)造描述符

從獲取描述符的角度理解Gadget框架

基于DWC_ether_qos的以太網(wǎng)驅(qū)動開發(fā)-描述符格式介紹

Python的優(yōu)雅之處:Descriptor(描述符)

評論