在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種360°全景定制的Transformer框架

倩倩 ? 來源:極市平臺 ? 作者:廖康@知乎 ? 2022-08-31 11:06 ? 次閱讀

導讀

現有的基于CNN 的全景深度估計方法側重于消除全景失真,由于CNN中固定的接收場,無法有效地感知全景結構。本文提出了一種360°全景定制的Transformer框架,可以很容易地遷移到全景視覺其他dense prediction任務上,比如全景圖像語義分割,無需改變任何網絡結構便能取得SOTA性能。

342a6de0-28b9-11ed-ba43-dac502259ad0.jpg

論文鏈接:

https://arxiv.org/pdf/2203.09283.pdf

代碼鏈接:

https://github.com/zhijieshen-bjtu/PanoFormer

文案:申志杰,廖康

343bf8a8-28b9-11ed-ba43-dac502259ad0.jpg

PanoFormer簡介圖

1. 研究背景及動機

單目全景深度估計(monocular omnidirectional depth estimation, MODE)是三維場景理解中的一個子領域,其任務設定為給定一張360°全景RGB圖像,通過網絡建模推理得到對應的360°深度圖,相較于立體視覺而言具有更好的便利性。

MODE使用更為常見的等距柱狀投影(ERP)全景圖作為輸入。這與正常的2D perspective圖像存在較大差異:ERP全景圖的360°視角增益是以畸變為代價,因此導致整幅圖像存在規律性的扭曲(畸變程度由圖片水平軸線向垂直邊逐漸增大)。受限于CNN有限的感受野和固定的采樣位置,這種畸變特性使得MODE具有獨立于傳統單目深度估計任務之外的挑戰性。

當然,此前的一些工作提出基于CUBE和ERP投影的雙分支融合結構來增強網絡對于大畸變區域的特征提取和建模能力,但需要注意的是,CUBE格式的全景圖在投影過程中會有25%像素的丟失,這直接導致CUBE分支深度圖的模糊。如此兩個分支的有限結果決定了其性能上限。為了解決像素損失這一問題,后續有工作提出基于旋轉CUBE設計雙分支結構,一定程度上緩和了這一矛盾。

隨著Transformer網絡框架的興起,其獨特的long-range建模能力為解決大畸變問題提供了一個新的思路。但“拿來主義”真能行得通嗎?

2. 應用挑戰

首先,我們回顧一下傳統的視覺Transformer在處理圖像時的步驟并分析一下其在ERP圖像上的應用挑戰:

劃分patch

在以ERP格式作為輸入的前提下會有兩種劃分patch的方法:(1)直接等間距劃分patch;(2)將球面全景圖投影成重疊的perspective視口自然地作為patch。首先,直接劃分patch的方法會顯著破壞大畸變區域的結構,而perspective視口可以將跨度非常大的物體投影回一個patch。這樣對比來看似乎后者更有趣且合理。

Patch->Embedding->Token

視覺Transformer中做位置嵌入是通過線性層壓縮特征維度實現的,那這種特征維度的壓縮對于深度估計這一類像素級回歸任務來說會不會造成信息的丟失,從而導致性能的下降?

位置嵌入

此前的一些工作指出,在視覺領域位置嵌入能夠貢獻的力量似乎并沒有很大,且比較雞肋,很多工作甚至直接摒棄了位置嵌入模塊,他們認為網絡中所引入的卷積結構會暗含位置信息。但考慮步驟1,如果我們采用perspective視口patch的劃分方式,其真實的空間位置已經發生了改變,因此一個合適的位置嵌入策略在MODE中是迫切需要的。那么如何設計一個合理的位置嵌入方式呢?

Self-attention

自注意力模塊通過壓縮后的特征生成q, k, v依次查詢計算全局注意力,如果我們的embedding設計成像素級,將會帶來很大的計算復雜度,如何解決?

為了解決這些問題我們提出了一種360°全景定制的Transformer框架。

3. 方法

344a7464-28b9-11ed-ba43-dac502259ad0.jpg

Spherical Token Locating Model (STLM)

劃分patch

如前所述,我們劃分patch可以盡可能地通過投影的方式劃分patch而不是直接在ERP圖上劃分。投影我們選擇CUBE格式的perspective視口。那么問題是,我們如何選擇CUBE patch的切點?以及如何確定patch的大小?不考慮計算復雜度,我們可以將每個像素點都作為一次切點,這樣信息會盡可能地全部保留。至于大小,我們在前面討論了CUBE投影的弊端之一是像素丟失,在這里我們還要討論一種弊端:對于CUBE投影面,理想情況下僅有CUBE的中心點(即切點)不存在畸變,除此之外,其他位置會呈現出由切點向四周逐漸增大的畸變趨勢。考慮一種極端的情況,當CUBE的大小收縮到極致,即每個CUBE面僅由中心切點及其周圍的八個點組成,CUBE面近似貼近球面,畸變影響降至最小。我們將此時的CUBE面稱為Tangent patch。

Embedding

從盡可能提高性能的角度出發,我們可以通過等價映射將每個像素點映射成一個Token。區別于傳統Transformer中將每個Patch嵌入為每個Token,我們直接將每個Tangent Patch上的采樣點當作Token。直觀的理解,我們的patch和token都是手工劃分的,patch在我們的網絡中多為一種抽象的概念,我們直接的操作對象是Token(采樣點),即每個切點及其周圍的八個點。

位置嵌入

Tangent Patch是相對于球面而言,為了定義其空間位置屬性,我們將手工劃分的patch反投影到ERP圖上。注意在球面全景圖上每個patch由切點及其周圍的八個投影點組成,而在ERP圖上這種空間對應關系發生了改變,由于畸變的存在,他們在ERP上幾乎不再相鄰。這種位置投影對應關系恰恰提供了我們Transformer里面所需要的位置嵌入。

34580d36-28b9-11ed-ba43-dac502259ad0.jpg

Panoramic Structure-guided Transformer (PST) block

計算注意力

首先如果我們像傳統Transformer那樣計算注意力,其計算開銷非常大,但得益于我們patch劃分方式和位置嵌入策略,我們似乎找到了其最相關的位置對應關系,即切點token及與其最相關的8個token。那么我們可以僅僅通過計算切點token(或中心token)與這8個token的注意力即可。但問題如果這樣做,我們會犯了一個非常大的錯誤,即把token的位置鎖死了,使得我們的網絡架構喪失了傳統Transformer固有的靈活性。為了解決這一問題,我們提出了token flow的概念,即通過學習一個偏移來彌補其結構上靈活性的喪失。意外之喜是,這種流式的概念可以使網絡更好地建模全景結構這一重要的深度線索。

最后,我們基于設計的PST block構建最終的PanoFormer網絡框架:

346f3fba-28b9-11ed-ba43-dac502259ad0.jpg

PanoFormer網絡架構圖

4. 新指標

為了突出模型對于大畸變區域的建模能力,我們通過選取6個CUBE投影面的上下兩個面來設計Pole-RMSE指標。(注意此指標的應用的一個前提條件是全景相機水平放置,目前的流行的數據集大都遵循這一假設。)

考慮到ERP全景圖的特性,左右可以實現無縫拼接,我們提出LRCE指標來反映模型的長距離建模能力。

詳細計算過程請參考論文。

5. 實驗結果

我們在四個主流的MODE數據集上對我們的模型進行了評估,結果顯示我們的模型取得了更有競爭力的結果。但由于Stanford2D3D以及Matterport3D數據集的固有缺陷導致我們沒有辦法在這兩個數據集上評測我們的新指標(P-RMSE),因此我們在這兩個數據集上只報道了MRE和MAE的指標性能,這兩個指標的計算參照SliceNet(CVPR'21)所開源的代碼執行。此外,關于數據集的一些討論詳情見gihub代碼鏈接。

值得一提的是,PanoFormer可以很容易地遷移到全景視覺其他dense prediction任務上,比如全景圖像語義分割,無需改變任何網絡結構便能取得SOTA性能。

34877724-28b9-11ed-ba43-dac502259ad0.jpg

客觀指標

34a098da-28b9-11ed-ba43-dac502259ad0.jpg

主觀對比

34b0608a-28b9-11ed-ba43-dac502259ad0.jpg

全景語義分割客觀指標

6. 局限性

關于更高分辨率的擴展計算復雜度可能是我們工作的一個待提升的點。這可以通過在encoder階段增加下采樣層,在decoder階段增加插值操作得到緩解。此外,如果仔細觀察可以發現attention計算部分存在比較多重復計算的情況,這可能是優化我們網絡的一個方向。

希望我們的工作可以為該領域帶來啟發。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 框架
    +關注

    關注

    0

    文章

    403

    瀏覽量

    17564
  • 數據集
    +關注

    關注

    4

    文章

    1211

    瀏覽量

    24890
  • Transformer
    +關注

    關注

    0

    文章

    146

    瀏覽量

    6080

原文標題:首個360°全景定制的單目深度估計Transformer-PanoFormer(ECCV 2022)

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    探索 RK3576 方案:卓越性能與靈活框架,誠邀開發定制合作!

    。它在繼承 RK3576 強大性能的基礎上,進步提升了散熱性能,確保在長時間運行復雜任務時也能保持穩定。而且,我們提供完善的技術支持和開發文檔,方便開發者快速上手進行開發定制。如果您正在尋找
    發表于 02-05 15:21

    一種面向飛行試驗的數據融合框架

    天地氣動數據致性,針對某外形飛行試驗數據開展了典型對象的天地氣動數據融合方法研究。結合數據挖掘的隨機森林方法,本文提出了一種面向飛行試驗的數據融合框架,通過引入地面風洞試驗氣動數據,實現了對復雜輸入參數的特征
    的頭像 發表于 11-27 11:34 ?365次閱讀
    <b class='flag-5'>一種</b>面向飛行試驗的數據融合<b class='flag-5'>框架</b>

    Transformer模型的具體應用

    如果想在 AI 領域引領輪新浪潮,就需要使用到 Transformer
    的頭像 發表于 11-20 09:28 ?756次閱讀
    <b class='flag-5'>Transformer</b>模型的具體應用

    自動駕駛中直說的BEV+Transformer到底是個啥?

    (Bird’s Eye View)+Transformer”是兩個方向的技術,BEV是一種全新的3D坐標系,而Transformer則是一種深度學習神經網絡模型,BEV+
    的頭像 發表于 11-07 11:19 ?599次閱讀
    自動駕駛中<b class='flag-5'>一</b>直說的BEV+<b class='flag-5'>Transformer</b>到底是個啥?

    360全景觀看顯示神器定制球形LED異形創意顯示屏面世。

    隨著科技的不斷進步和人們審美需求的日益提高,相信這款360全景觀看顯示神器——定制球形LED異形創意顯示屏將會在未來的視覺展示領域中發揮更加重要的作用,為人們帶來更加豐富多彩、震撼人心的視覺體驗。
    的頭像 發表于 10-29 10:48 ?187次閱讀
    <b class='flag-5'>360</b>度<b class='flag-5'>全景</b>觀看顯示神器<b class='flag-5'>定制</b>球形LED異形創意顯示屏面世。

    這是汽車360全景控制器上的主板,請問圓圈中的原件是什么,起什么作用?

    這是汽車360全景控制器上的主板,請問圓圈中的原件是什么,起什么作用?勞煩大家!
    發表于 09-27 16:20

    全景聲解碼器

    全景聲解碼器是款將音頻技術推向極致的產品。它不僅提供高質量的音頻解碼,還讓用戶體驗到一種前所未有的聲音空間。無論您是想要享受音樂、觀看電影,還是沉浸于游戲世界,全景聲解碼器都能為您打
    的頭像 發表于 09-24 10:40 ?538次閱讀
    <b class='flag-5'>全景</b>聲解碼器

    基于TDA處理器的360全景實現YUV422輸出的方案

    電子發燒友網站提供《基于TDA處理器的360全景實現YUV422輸出的方案.pdf》資料免費下載
    發表于 09-05 11:12 ?0次下載
    基于TDA處理器的<b class='flag-5'>360</b>度<b class='flag-5'>全景</b>實現YUV422輸出的方案

    Transformer能代替圖神經網絡嗎

    Transformer作為一種在處理序列數據方面表現出色的深度學習模型,自其提出以來,已經在自然語言處理(NLP)、時間序列分析等領域取得了顯著的成果。然而,關于Transformer是否能完全代替圖神經網絡(GNN)的問題,需
    的頭像 發表于 07-12 14:07 ?574次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領域取得了巨大的成功,并成為了許多先進模型(如BERT、GPT等)的基礎。本文將深入解讀如何使用PyTorch框架搭建Transformer模型,包括模型的結構、訓
    的頭像 發表于 07-02 11:41 ?1943次閱讀

    YXC差分可編程振蕩器,頻點200MHz,LVDS輸出,應用于360°全景環視

    360°全景車載攝像頭高清畫面的捕獲離不開晶振的功勞,它穩定輸出高精度高頻信號給芯片,360°全景車載攝像頭才能提供流暢高清的實時畫面給駕駛人。而置身于車身外部的車載攝像頭需要具備抵抗
    的頭像 發表于 06-18 15:49 ?385次閱讀
    YXC差分可編程振蕩器,頻點200MHz,LVDS輸出,應用于<b class='flag-5'>360</b>°<b class='flag-5'>全景</b>環視

    引領安防發展,EPSON晶振助力全景攝像頭

    隨著行業的飛速發展,360°全景監控成為了智能安防領域的熱點研究方向,安防產品內部中唯有晶振才能將防盜功能施展到極致,其存在就是給攝像頭正常工作提供穩定的時鐘信號。下面將詳細分析智能晶振在智能安防
    的頭像 發表于 06-14 11:42 ?453次閱讀
    引領安防發展,EPSON晶振助力<b class='flag-5'>全景</b>攝像頭

    一種高效的KV緩存壓縮框架--GEAR

    GEAR框架通過結合三互補的技術來解決這挑戰:首先對大多數相似幅度的條目應用超低精度量化;然后使用低秩矩陣來近似量化誤差。
    發表于 03-19 10:12 ?394次閱讀
    <b class='flag-5'>一種</b>高效的KV緩存壓縮<b class='flag-5'>框架</b>--GEAR

    介紹一種OpenAtom OpenHarmony輕量系統適配方案

    本文在不改變原有系統基礎框架的基礎上, 介紹了一種OpenAtom OpenHarmony(以下簡稱“OpenHarmony”)輕量系統適配方案。
    的頭像 發表于 03-05 09:24 ?1329次閱讀
    介紹<b class='flag-5'>一種</b>OpenAtom OpenHarmony輕量系統適配方案

    知語云全景監測技術:現代安全防護的全面解決方案

    一種先進的安全防護手段,它集成了大數據分析、人工智能、云計算等尖端技術,能夠實時監測網絡環境中的各種安全風險,為企業和個人的數據安全提供堅實保障。 該技術的主要特點包括: 實時監測,全面感知:知語云
    發表于 02-23 16:40
    主站蜘蛛池模板: 最新黄色在线 | 张柏芝三级无删减在线观看 | 久草在线免费资源站 | 97久草| 婷婷综合激情网 | 国产成人优优影院 | 一级毛片免费全部播放 | 日本三级免费观看 | wwwxx在线| ⅹxxxx68日本老师hd | 黄色小视频免费看 | 日本经典在线三级视频 | 萌白酱一线天粉嫩喷水在线观看 | 天天干影院 | 韩国r天堂 | 欧美高清一区二区 | 白嫩少妇激情无码 | 甘婷婷一级毛片免费看 | 经典三级四虎在线观看 | 爱情岛网站亚洲禁18进入 | aa1在线天堂 | www激情| 四虎成人欧美精品在永久在线 | 男人天堂网2021 | 国产裸露片段精华合集链接 | 欧美一卡2卡三卡4卡5卡免费观看 | 国色天香网在线 | freesexvideo性欧美tv | 怡红院色视频在线 | 色香视频一sxmv首页 | 男人操女人免费视频 | 国产激情久久久久影院小草 | 男人日女人视频在线观看 | 两性色午夜视频免费播放 | 操女人视频网站 | 亚洲乱码一区二区三区在线观看 | 97人人模人人揉人人捏 | 精品国产麻豆免费人成网站 | 天天爽天天爽 | 黄色网免费观看 | 色偷偷.com |