在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種用于自監督單目深度估計的輕量級CNN和Transformer架構

3D視覺工坊 ? 來源:泡泡機器人SLAM ? 2023-03-14 17:54 ? 次閱讀

摘要

大家好,今天為大家帶來的文章:Lite-Mono:A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth Estimation 自監督單目深度估計不需要地面實況訓練,近年來受到廣泛關注。

設計輕量級但有效的模型非常有意義,這樣它們就可以部署在邊緣設備上。許多現有的體系結構受益于以模型大小為代價使用更重的主干。

在本文中,我們實現了與輕量級ar結構相當的結果。具體來說,我們研究了cnn和transformer的有效結合,并設計了一個混合架構Lite-Mono。提出了連續擴展卷積(CDC)模塊和局部全局特征交互(LGFI)模塊。

前者用于提取豐富的多尺度局部特征,后者利用自注意機制將長范圍的全局信息編碼到特征中。實驗證明,我們的完整模型在精度上優于Monodepth2,可訓練參數減少了80%左右。

c0a807c4-c24b-11ed-bfe3-dac502259ad0.png

圖1 我們的完整模型Lite-Mono的參數比Monodepth2[15]和R-MSFM[44]少,但生成的深度圖更準確。

主要工作與貢獻

綜上所述,我們的貢獻如下:

我們提出了一種新的輕量級架構,稱為Lite-Mono,用于自監督單目深度估計。我們證明了它的有效性與模型大小和FLOPs

與競爭較大的模型相比,所提出的架構在KITTI[13]數據集上顯示出更高的精度。它用最少的可訓練參數達到了最先進的水平。在Make3D[31]數據集上進一步驗證了模型的泛化能力。為了驗證不同設計方案的有效性,還進行了額外的消融實驗

在Nvidia Titan XP和Jetson Xavier平臺上測試了該方法的推理時間,驗證了該方法在模型復雜度和推理速度之間的良好平衡。

算法流程

1.總體結構

多篇論文證明,一個好的編碼器可以提取更多有效的特征,從而改善最終結果[15,17,42]。本文著重設計了一種輕量級編碼器,可以對輸入圖像中的有效特征進行編碼。圖2顯示了建議的體系結構。它由一個編解碼器DepthNet(章節3.2)和一個PoseNet(章節3.3)組成。DepthNet估計輸入圖像的多尺度反深度圖,PoseNet估計兩個相鄰幀之間的相機運動。然后生成重建目標圖像,計算損失以優化模型(章節3.4)。

增強局部特特征:使用較淺的網絡而不是較深的網絡可以有效地減小模型的大小。如前所述,淺層cnn的接受野非常有限,而使用擴張卷積[41]有助于擴大接受野。通過疊加提出的連續擴張卷積(CDC),網絡能夠在更大的區域“觀察”輸入,同時不引入額外的訓練參數。

c1171ff6-c24b-11ed-bfe3-dac502259ad0.png

圖2 擬議的Lite-Mono概述。我們的Lite-Mono有一個用于深度預測的編碼器-解碼器DepthNet,以及一個常用的PoseNet[15,44]來估計相鄰單目幀之間的姿勢。深度網絡的編碼器由四個階段組成,我們提出使用連續擴張卷積(CDC)模塊和局部全局特征交互(LGFI)模塊來提取豐富的層次特征。這些模塊的詳細信息如圖3所示。

低計算量的全局信息:增強的局部特征不足以在沒有Transform的幫助下學習輸入的全局表示來建模遠程信息。原Transformer[8]中的MHSA模塊的計算復雜度與輸入維數呈線性關系,因此限制了輕量化模型的設計。局部全局特征交互(Local-Global Features Interaction, LGFI)模塊采用跨協方差注意力[1]來計算沿特征通道的注意力,而不是跨空間維度計算注意力

c13c8746-c24b-11ed-bfe3-dac502259ad0.png

圖3 所提出的連續擴展卷積(CDC)模塊和局部全局特征交互(LGFI)模塊的結構。在每個階段,不同擴張速率的CDC模塊重復N次。

2.DepthNet

2.1 編碼器

深度編碼器。Lite-Mono在四個階段聚合了多尺度特征。大小為H ×W ×3的輸入圖像首先被輸入到卷積干中,在那里圖像被3 ×3卷積向下采樣。接下來進行兩個額外的3個×3卷積(stride =1)進行局部特征提取,我們得到大小為H2 ×W2 ×C1的特征映射。

在第二階段,將特征與池化后的三通道輸入圖像進行拼接,再使用stride =2的3 ×3卷積對特征圖進行下采樣,得到大小為H 4 H 4 ×W4 ×C2的特征圖。在下采樣層中,將特征與平均池化的輸入圖像進行拼接,可以減少特征尺寸減小所造成的空間信息損失,這是受到ESPNetv2[3]的啟發。然后,我們使用提出的連續擴張卷積(CDC)模塊和局部-全局特征交互(LGFI)模塊來學習豐富的分層特征表示。

2.2 連續擴張卷積(CDC

連續擴張卷積(CDC)。提出的CDC模塊利用擴張卷積提取多尺度局部特征。不同于只在網絡的最后一層使用并行擴張卷積模塊[6],我們在每個階段插入幾個連續的不同擴張速率的擴張卷積,以實現足夠的多尺度上下文聚合。

c15d1600-c24b-11ed-bfe3-dac502259ad0.png

2.3局部全局特征交互(LGFI)

給定一個維度為H的輸入特征映射X ×W ×C,我們可以將其投影到相同維度的查詢Q =XWq,鍵K =XWk,值V =XWv,其中Wq、Wk和Wv是權重矩陣。我們使用交叉協方差注意[1]來增強輸入X:

c16d35e4-c24b-11ed-bfe3-dac502259ad0.png

2.4 解碼器

不同于使用復雜的上采樣方法[44]或引入額外的注意模塊[3],我們使用了從[15]改編而來的深度解碼器。作為 如圖2所示,它使用雙線性上采樣來增加空間維度,并使用卷積層來連接編碼器的三個階段的特征。每個向上采樣塊跟隨一個預測頭,分別以全分辨率、12分辨率和14分辨率輸出逆深度圖。

c17efe28-c24b-11ed-bfe3-dac502259ad0.png

圖3 網絡結構表

實驗結果
c0982430-c24b-11ed-bfe3-dac502259ad0.png ? c1b8af92-c24b-11ed-bfe3-dac502259ad0.png

表1我們的模型與KITTI基準上使用特征分割[9]的一些最近的代表性方法的比較。除非另有說明,否則所有輸入圖像都將調整為640 ×192。最佳和次優結果分別用粗體和下劃線突出顯示?!盡”:KITTI單目視頻,“M+Se”:單目視頻+語義分割,“*”:輸入分辨率1024 ×320,“My”:未經ImageNet預訓練[7]。

c1dade64-c24b-11ed-bfe3-dac502259ad0.png

圖4 KITTI的定性結果。我們分別展示了Monodepth2 [15],R-MSFM3 [44],R-MSFM6 [44],Lite-Mono-small(我們的)和Lite-Mono(我們的)生成的一些深度圖。Monodepth2和R-MSFM的接受域有限,因此它們的深度預測有些不準確。相反,我們的模型可以產生更好的結果

c2221266-c24b-11ed-bfe3-dac502259ad0.png

圖5 Make3D數據集上的定性結果。我們比較Monodepth2[15]和R-MSFM[44]。我們的模型可以感知不同大小的物體 圖3KITTI數據集上的DRAFT預測示例。從(a)輸入的RGB圖像中,我們顯示(b)光流估計,(c)深度估計,和(d)從深度和場景流估計中預測的光流 。





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • RGB
    RGB
    +關注

    關注

    4

    文章

    801

    瀏覽量

    58724
  • 編解碼器
    +關注

    關注

    0

    文章

    268

    瀏覽量

    24310
  • CDC
    CDC
    +關注

    關注

    0

    文章

    57

    瀏覽量

    17859

原文標題:CVPR 2023 | Lite-Mono:一種用于自監督單目深度估計的輕量級CNN和Transformer架構

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于transformer監督學習的路面異常檢測方法分享

    鋪設異常檢測可以幫助減少數據存儲、傳輸、標記和處理的壓力。本論文描述了一種基于Transformer監督學習的新方法,有助于定位異常區域。
    的頭像 發表于 12-06 14:57 ?1686次閱讀
    基于<b class='flag-5'>transformer</b>和<b class='flag-5'>自</b><b class='flag-5'>監督</b>學習的路面異常檢測方法分享

    輕量級深度學習網絡是什么

    輕量級深度學習網絡概覽
    發表于 04-23 14:53

    一種輕量級的flashKV數據存儲方案分享

    tinyFlash一種輕量級的flash KV數據存儲方案Github 地址:https://github.com/ospanic/tinyFlash設計原理本方案采用兩個扇區輪流使用的方法存儲
    發表于 12-20 06:08

    基于深度估計的紅外圖像彩色化方法_戈曼

    基于深度估計的紅外圖像彩色化方法_戈曼
    發表于 03-17 10:13 ?0次下載

    基于圖像的深度估計算法,大幅度提升基于圖像深度估計的精度

    雙目匹配需要把左圖像素和右圖中其對應像素進行匹配,再由匹配的像素差算出左圖像素對應的深度,而之前的深度估計方法均不能顯式引入類似的幾何約
    的頭像 發表于 06-04 15:46 ?3.5w次閱讀
    基于<b class='flag-5'>單</b><b class='flag-5'>目</b>圖像的<b class='flag-5'>深度</b><b class='flag-5'>估計</b>算法,大幅度提升基于<b class='flag-5'>單</b><b class='flag-5'>目</b>圖像<b class='flag-5'>深度</b><b class='flag-5'>估計</b>的精度

    深度探析7大類深度CNN創新架構

    深度卷積神經網絡(CNN)是一種特殊類型的神經網絡,在各種競賽基準上表現出了當前最優結果。本綜述將最近的 CNN 架構創新分為七個不同的類別
    的頭像 發表于 01-27 11:01 ?4295次閱讀
    <b class='flag-5'>深度</b>探析7大類<b class='flag-5'>深度</b><b class='flag-5'>CNN</b>創新<b class='flag-5'>架構</b>

    一種輕量級的通信協議 - MAVLink

    一種輕量級的通信協議 - MAVLink
    的頭像 發表于 03-12 14:14 ?4782次閱讀
    <b class='flag-5'>一種</b><b class='flag-5'>輕量級</b>的通信協議 -  MAVLink

    一種輕量級時間卷積網絡設計方案

    時間卷積網絡(TCN)在處理時間序列預測問題時存在計算量大和參數冗余問題,導致其難以應用于存儲空間和計算能力受限的手機、平板電腦、筆記本電腦等移動終端。為此,設計一種輕量級時間卷積網絡(L-TCN
    發表于 03-22 16:04 ?6次下載
    <b class='flag-5'>一種</b><b class='flag-5'>輕量級</b>時間卷積網絡設計方案

    采用監督CNN進行圖像深度估計的方法

    為了提高利用深度神經網絡預測圖像深度信息的精確度,提出了一種采用監督卷積神經網絡進行
    發表于 04-27 16:06 ?13次下載
    采用<b class='flag-5'>自</b><b class='flag-5'>監督</b><b class='flag-5'>CNN</b>進行<b class='flag-5'>單</b>圖像<b class='flag-5'>深度</b><b class='flag-5'>估計</b>的方法

    一種新的輕量級視覺Transformer

    既然都叫 EfficientFormerV2,那必然是在上版的基礎上改進了,如圖(a)所示。沒什么特別新奇的,個很常規的 ViT 型架構。下面的圖表是作者統計的實驗改進結果
    的頭像 發表于 12-19 14:00 ?1336次閱讀

    介紹第個結合相對和絕對深度的多模態深度估計網絡

    深度估計分為兩個派系,metric depth estimation(度量深度估計,也稱絕對
    的頭像 發表于 03-21 18:01 ?6080次閱讀

    一種端到端的立體深度感知系統的設計

    ? ? 本文提出了一種生產化的端到端立體深度感知系統設計,可以完成預處理、在線立體校正和立體深度估計,并支持糾偏失敗后的
    的頭像 發表于 05-26 16:12 ?806次閱讀
    <b class='flag-5'>一種</b>端到端的立體<b class='flag-5'>深度</b>感知系統的設計

    一種利用幾何信息的監督深度估計框架

    本文方法是一種監督深度估計框架,名為GasM
    發表于 11-06 11:47 ?464次閱讀
    <b class='flag-5'>一種</b>利用幾何信息的<b class='flag-5'>自</b><b class='flag-5'>監督</b><b class='flag-5'>單</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估計</b>框架

    動態場景下的監督深度估計方案

    監督深度估計的訓練可以在大量無標簽視頻序列來進行,訓練集獲取很方便。但問題是,實際采集的視
    發表于 11-28 09:21 ?802次閱讀
    動態場景下的<b class='flag-5'>自</b><b class='flag-5'>監督</b><b class='flag-5'>單</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估計</b>方案

    深度估計開源方案分享

    可以看一下單深度估計效果,這個深度圖的分辨率是真的高,物體邊界分割的非常干凈!這里也推薦工坊推出的新課程《
    的頭像 發表于 12-17 10:01 ?875次閱讀
    <b class='flag-5'>單</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估計</b>開源方案分享
    主站蜘蛛池模板: 亚洲高清国产拍精品影院 | 99热这里只有精品一区二区三区 | 黄色软件合集 | 亚洲国产网 | 久久美女精品国产精品亚洲 | 亚洲国产成人久久笫一页 | 久操视频在线观看 | 午夜高清视频在线观看 | 三级黄色录像 | 红怡院欧洲 | 视频在线观看高清免费大全 | 美女被视频网站在线看九色 | tube亚洲高清老少配 | 男人的天堂在线精品视频 | 日韩特黄特色大片免费视频 | 一色桃子juy774在线播放 | 亚洲深爱| bt天堂资源在线种子 | 天天操天天干天天干 | 钻石午夜影院 | 7m视频精品凹凸在线播放 | 爱爱免费视频网站 | 天天干夜干| 最近高清在线国语 | 五月天婷婷色图 | 天天干天天碰 | 好大好硬好深好爽想要免费视频 | 久久天天躁夜夜躁狠狠躁2020 | 亚洲精品美女久久久aaa | 久久综合九色综合网站 | 华人被黑人粗大猛然进 | 夜夜精品视频一区二区 | 在线观看一二三区 | 久久综合性 | 5151hh四虎国产精品 | 天天操天天摸天天爽 | 午夜在线观看视频在线播放版 | 在线观看网站黄 | 色噜噜色偷偷 | 国产在线观看www鲁啊鲁免费 | 亚洲成成品网站有线 |