怎么写网络小说,小说改编的网页游戏,小说网

前情提要：

閱讀本篇論文的“實驗”部分時，覺得作者的實驗方案很完善且描述清晰，受益匪淺，因此本篇小記淡化了方法闡述，主要記錄作者的數據處理及分析過程，為自己之后設計類似實驗時提供方法參考及思路拓展。

摘要

對于圖像匹配任務來說，除了特征點之外，線特征也提供了額外的約束以解決機器人和計算機視覺（CV）中的視覺幾何問題。盡管最近基于卷積神經網絡（CNN）的線描述符有望用于視點變化或動態環境，但我們認為CNN架構在將可變線長度抽象為固定維描述符方面存在先天缺陷。

在本文中，我們有效地介紹了處理可變線段的Line-Transformers。自然語言處理（NLP）任務可以在神經網絡中很好地理解和抽象句子。受此啟發我們將線段視為包含點（詞）的句子，通過動態地關注線上的可描述點，我們的描述符在可變線長度上表現出色。我們還提出了將線的幾何屬性共享到鄰域的線簽名網絡。

作為組描述符，網絡通過理解線的相對幾何結構來增強線描述符。最后，我們在點線定位（PL-Loc）中展示了所提出的線描述符和匹配。實驗表明，使用本文線特征可以改進帶有特征點的視覺定位，并驗證了所提出的單應性估計和視覺定位方法。

引言

雖然在SLAM和SFM中，特征點已經被廣泛研究，但在圖像中分布不均勻的特征點可能會導致不穩定和不準確的姿態估計。最近的研究表明，即使在弱紋理環境中，也可以通過使用點線特征增強SLAM性能。例如SLAM中廣泛使用的LBD線描述符，對于連續幀來說性能比較可靠，但對于寬基線圖像來說，會阻止基于線的方法在視覺定位中直接適應線特征導致LBD描述符性能下降。

因此開始研究利用CNN來學習線描述符的表示，但CNN在研究可變線段的長度方面存在固有的弊端，基于上述問題，本文主要貢獻如下：

通過將線段視為句子，將點視為單詞，提出了一種使用transformer架構的新型線段描述符。利用NLP作為線段描述符，可以處理各種可變長度的線段；

提出的線段描述符通過關注線段上更有意義的點來理解線段的上下文。它有效地將各種長度的線段抽象為固定大小的描述符；

建議在鄰域之間共享線屬性（例如，位置、角度、長度和描述符）信息的線簽名網絡。

方法

本文提出的Line-Transformers旨在線段的給定點上構建線段描述符，如圖1所示，Line-Transformers由兩個主要部件組成：line transformers和line signature networks。

第一個組件使用線標記器從線段中提取點標記和嵌入。考慮到點嵌入的上下文，transformers將其歸納為線嵌入或線描述符。第二個組件通過與鄰域共享線的位置上下文來增強線描述符。

圖1 提出的Line-Transformers架構

具體實施時，為了檢測圖像上的線段，文章使用了環境適用性較高的線段檢測器LSD，選擇SuperPoint作為前端描述符地圖。

實驗

本文根據單應性估計和視覺定位性能評估所提出的線描述符。對于兩個測試場景，分別將所提方法與SuperPoint、LBD（手工繪制）、LLD、WLD和比較，此處LBD、LLD和WLD使用最近鄰匹配器，使用自身的線匹配器完成線特征匹配，同時將SuperPoint作為基于點特征的匹配參考。

A、單應性估計

（1）數據集：使用Oxford和Paris數據集進行單應性估計。為了從圖像對中建立真實線段對應關系，首先從原始圖像及其增強圖像中檢測線段。然后使用已知的單應矩陣將每條線的兩個端點投影到另外的線上。正確對應的標準是：存在重疊、重投影誤差小于4個像素、角度差小于2度。得到的真實對應關系表示為重疊相似矩陣。兩條線之間的重疊相似性用重疊線長度和較小線長度之間的比率表示：

其中重疊線長度是兩條線段的四個端點里面中間兩個端點間距離值。對于SuperPoint來說，真實點對應關系由點投影誤差小于4個像素來表示。（2）指標：首先利用2000次迭代的RANSAC實現基于線段的單應性矩陣估計，基于此計算4個圖像角的平均重投影誤差，并記錄閾值為5、10和20個像素處累積誤差曲線（AUC）下的面積。

同時還基于匹配真值計算了匹配精度（P）和召回率（R）。（3）結果：表1列出了各方法定量比較的結果。可以看出，本文提出方法在F分數方面比其他線描述符方法有很大的優勢（10.1%）。我們的方法除了低于5個像素的AUC之外，優于其他所有單應性估計指標。與SuperPoint相比，Line-Transformers在10和20像素以下的AUC下產生了更穩定的性能。LLD在這個數據集上的性能很低，因為它最初是在連續幀中訓練的，沒有大的視點變化。表1 單應性估計結果對比

準確率和召回率是對線匹配性能的直接而明確的度量，其僅取決于正確/錯誤匹配的數量。當性能取決于匹配的數量、分布和質量時，可以從單應性估計中分析更多的隱藏性能。在這個意義上，所提出的方法滿足了可靠匹配的數量和質量。

圖2 單應性估計和視覺定位的線匹配定性結果對比

圖2顯示了基于單應性估計的線匹配的定性結果。與其他線描述符相比，Line-Transformers通過產生更多正確匹配和更少錯誤匹配而具有更好的性能，其中LBD有許多不正確的匹配，導致匹配精度較低。

B、視覺定位

除了上述評價指標外，本文還通過估計三維線圖中的相機姿態評估線描述符，這里使用了ScanNet和Oxford Radar RobotCar數據集進行室內外實驗，為了驗證本文所提方法的可推廣性，分別對室內外環境應用不同的訓練方法。

（1）室內：首先生成線段對應真值和三維線圖。基于深度圖選擇了滿足一定重疊的圖像對（40-80%）。由于深度圖中的潛在不確定性，此處將線分解為點序列，并檢查中間點以驗證線的對應性。

（2）室外：在隨機選擇的序列影像中執行視覺位置識別，以篩選出具有3D線特征的對應參考圖像。此處沒有使用不可靠的GPS數據，而是基于查詢圖像和參考圖像的點云，通過迭代最近點ICP來計算它們之間的真實相對姿態，并排除了ICP適應度較差的查詢參考圖像對。

（3）指標：記錄使用不同閾值（即室內0.25m、10°/0.5m、10°/1.0m、10°，室外0.25m、2°/0.5m，5°/5.0m和10°）時正確定位的查詢圖像的百分比。此處使用20次迭代的RANSAC，通過PnPL估計相機姿態。相應的利用PnP評估SuperPoint。本文分析了分別使用點、線、點和線的姿態估計結果，同時還分析了基于室內匹配真值的匹配精度（P）和召回率（R）。

（4）結果：如表2所示，對于室內外實驗，Line-Transformers在視覺定位和精確召回指標方面達到了其他線描述符中的最高性能。圖2中的定性結果也表明，Line-Transformers在成像變化（如模糊、視點和照明）方面表現強勁。表2 視覺定位結果對比

但與單應性估計不同，利用PnP的基于點的方法優于所有基于線的方法。其中一個原因是在深度驗證期間3D線內點的數量較少。雖然3D特征點直接由其對應的深度像素確定，但一些3D線特征會在RANSAC中的深度線性驗證期間被過濾掉。

因此，在本文的映射方法中，基于線的定位比基于點的定位容易導致性能下降。然而，線特征還是可以補充點的性能，特別是當點特征數較少或有偏差時。

C、可變線段長度

圖3(a)說明了整個圖具有向上的軌跡，從而表明當線段延伸時，本文方法比其他基于CNN的線描述符表現得更好。

圖3 不同線段長度的性能差異

D、關于評估指標的討論

與假定一對一匹配的點特征不同，線檢測器傾向于在每個圖像對中將相同的線段分割成不同的小線段，因此線匹配是一個多對多的問題。例如，由于遮擋和分割，兩條不重疊的線可能源自一條線，它們在語義上應該被認為是正確的對應關系。因此精確召回度量的評估結果可能不太精確，因為它們不能考慮非重疊的線段對應關系。

此時，視覺定位和單應性估計相對來說更適合作為評估指標。因為在視覺定位中，因為PnL算法不考慮端點位置，所以非重疊但語義相同的線段也被認為是正確的匹配。另外單應性估計雖然也不考慮端點，但僅限于真實場景中的平面，所以綜上所述，基于線的視覺定位是一種更好的選擇，可以同時評估大視角差異下的重疊和非重疊線匹配情況。

E、了解Line-Transformers

圖4(a)描述了點嵌入對構建線描述符的貢獻。由圖4(b)可看出線描述符之間的注意力得分最初很低且分布廣泛，在稍后的層中逐漸收斂到少量相鄰線上。

圖4 可視化注意力得分

F、基于點線特征的視覺定位

盡管表2中基于特征點定位的表現總體較好，但仍可能會因少量點或有偏差的特征分布而導致結果惡化，因此可以引入線特征以互補的方式增強基于特征點的視覺定位。這里使用3D特征的重投影誤差定義基于點的定位失敗，并在重投影誤差小于四個像素時計算內點。

然后，當內點的數量小于5或20時，額外執行PL-Loc。如圖5(b)所示，PL-Loc為視覺定位提供了額外的增強效果，61%的情況下點表現優于線段，這表明剩余39%的情況有可能通過線段得到改善。這也意味著點和線的適當組合將提高整體定位性能。

圖5 點線特征互補定位

結論

本文受NLP任務處理不同長度的句子和段落的啟發，提出了一種利用注意力機制有效處理可變長度的新型線描述符，同時還展示了一個同時利用特征點和特征線進行視覺定位的PL-Loc方法。實驗表明，本文所提線描述符在單應性估計和視覺定位數據集中達到了最先進的性能。