摘要
大家好,今天為大家帶來的文章:Lite-Mono:A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth Estimation 自監督單目深度估計不需要地面實況訓練,近年來受到廣泛關注。
設計輕量級但有效的模型非常有意義,這樣它們就可以部署在邊緣設備上。許多現有的體系結構受益于以模型大小為代價使用更重的主干。
在本文中,我們實現了與輕量級ar結構相當的結果。具體來說,我們研究了cnn和transformer的有效結合,并設計了一個混合架構Lite-Mono。提出了連續擴展卷積(CDC)模塊和局部全局特征交互(LGFI)模塊。
前者用于提取豐富的多尺度局部特征,后者利用自注意機制將長范圍的全局信息編碼到特征中。實驗證明,我們的完整模型在精度上優于Monodepth2,可訓練參數減少了80%左右。
圖1 我們的完整模型Lite-Mono的參數比Monodepth2[15]和R-MSFM[44]少,但生成的深度圖更準確。
主要工作與貢獻
綜上所述,我們的貢獻如下:
我們提出了一種新的輕量級架構,稱為Lite-Mono,用于自監督單目深度估計。我們證明了它的有效性與模型大小和FLOPs
與競爭較大的模型相比,所提出的架構在KITTI[13]數據集上顯示出更高的精度。它用最少的可訓練參數達到了最先進的水平。在Make3D[31]數據集上進一步驗證了模型的泛化能力。為了驗證不同設計方案的有效性,還進行了額外的消融實驗
在Nvidia Titan XP和Jetson Xavier平臺上測試了該方法的推理時間,驗證了該方法在模型復雜度和推理速度之間的良好平衡。
算法流程
1.總體結構
多篇論文證明,一個好的編碼器可以提取更多有效的特征,從而改善最終結果[15,17,42]。本文著重設計了一種輕量級編碼器,可以對輸入圖像中的有效特征進行編碼。圖2顯示了建議的體系結構。它由一個編解碼器DepthNet(章節3.2)和一個PoseNet(章節3.3)組成。DepthNet估計輸入圖像的多尺度反深度圖,PoseNet估計兩個相鄰幀之間的相機運動。然后生成重建目標圖像,計算損失以優化模型(章節3.4)。
增強局部特特征:使用較淺的網絡而不是較深的網絡可以有效地減小模型的大小。如前所述,淺層cnn的接受野非常有限,而使用擴張卷積[41]有助于擴大接受野。通過疊加提出的連續擴張卷積(CDC),網絡能夠在更大的區域“觀察”輸入,同時不引入額外的訓練參數。
圖2 擬議的Lite-Mono概述。我們的Lite-Mono有一個用于深度預測的編碼器-解碼器DepthNet,以及一個常用的PoseNet[15,44]來估計相鄰單目幀之間的姿勢。深度網絡的編碼器由四個階段組成,我們提出使用連續擴張卷積(CDC)模塊和局部全局特征交互(LGFI)模塊來提取豐富的層次特征。這些模塊的詳細信息如圖3所示。
低計算量的全局信息:增強的局部特征不足以在沒有Transform的幫助下學習輸入的全局表示來建模遠程信息。原Transformer[8]中的MHSA模塊的計算復雜度與輸入維數呈線性關系,因此限制了輕量化模型的設計。局部全局特征交互(Local-Global Features Interaction, LGFI)模塊采用跨協方差注意力[1]來計算沿特征通道的注意力,而不是跨空間維度計算注意力
圖3 所提出的連續擴展卷積(CDC)模塊和局部全局特征交互(LGFI)模塊的結構。在每個階段,不同擴張速率的CDC模塊重復N次。
2.DepthNet
2.1 編碼器
深度編碼器。Lite-Mono在四個階段聚合了多尺度特征。大小為H ×W ×3的輸入圖像首先被輸入到卷積干中,在那里圖像被3 ×3卷積向下采樣。接下來進行兩個額外的3個×3卷積(stride =1)進行局部特征提取,我們得到大小為H2 ×W2 ×C1的特征映射。
在第二階段,將特征與池化后的三通道輸入圖像進行拼接,再使用stride =2的3 ×3卷積對特征圖進行下采樣,得到大小為H 4 H 4 ×W4 ×C2的特征圖。在下采樣層中,將特征與平均池化的輸入圖像進行拼接,可以減少特征尺寸減小所造成的空間信息損失,這是受到ESPNetv2[3]的啟發。然后,我們使用提出的連續擴張卷積(CDC)模塊和局部-全局特征交互(LGFI)模塊來學習豐富的分層特征表示。
2.2 連續擴張卷積(CDC
連續擴張卷積(CDC)。提出的CDC模塊利用擴張卷積提取多尺度局部特征。不同于只在網絡的最后一層使用并行擴張卷積模塊[6],我們在每個階段插入幾個連續的不同擴張速率的擴張卷積,以實現足夠的多尺度上下文聚合。
2.3局部全局特征交互(LGFI)
給定一個維度為H的輸入特征映射X ×W ×C,我們可以將其投影到相同維度的查詢Q =XWq,鍵K =XWk,值V =XWv,其中Wq、Wk和Wv是權重矩陣。我們使用交叉協方差注意[1]來增強輸入X:
2.4 解碼器
不同于使用復雜的上采樣方法[44]或引入額外的注意模塊[3],我們使用了從[15]改編而來的深度解碼器。作為 如圖2所示,它使用雙線性上采樣來增加空間維度,并使用卷積層來連接編碼器的三個階段的特征。每個向上采樣塊跟隨一個預測頭,分別以全分辨率、12分辨率和14分辨率輸出逆深度圖。
圖3 網絡結構表
實驗結果
?
表1我們的模型與KITTI基準上使用特征分割[9]的一些最近的代表性方法的比較。除非另有說明,否則所有輸入圖像都將調整為640 ×192。最佳和次優結果分別用粗體和下劃線突出顯示?!盡”:KITTI單目視頻,“M+Se”:單目視頻+語義分割,“*”:輸入分辨率1024 ×320,“My”:未經ImageNet預訓練[7]。
圖4 KITTI的定性結果。我們分別展示了Monodepth2 [15],R-MSFM3 [44],R-MSFM6 [44],Lite-Mono-small(我們的)和Lite-Mono(我們的)生成的一些深度圖。Monodepth2和R-MSFM的接受域有限,因此它們的深度預測有些不準確。相反,我們的模型可以產生更好的結果
圖5 Make3D數據集上的定性結果。我們比較Monodepth2[15]和R-MSFM[44]。我們的模型可以感知不同大小的物體 圖3KITTI數據集上的DRAFT預測示例。從(a)輸入的RGB圖像中,我們顯示(b)光流估計,(c)深度估計,和(d)從深度和場景流估計中預測的光流 。
審核編輯:劉清
-
RGB
+關注
關注
4文章
801瀏覽量
58724 -
編解碼器
+關注
關注
0文章
268瀏覽量
24310 -
CDC
+關注
關注
0文章
57瀏覽量
17859
原文標題:CVPR 2023 | Lite-Mono:一種用于自監督單目深度估計的輕量級CNN和Transformer架構
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論