本文是對(duì)我們CoRL 2022被接收的文章SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation的介紹。在這個(gè)工作中,我們利用transformer融合環(huán)視的多視角特征,提升模型性能,并提出SfM預(yù)訓(xùn)練和聯(lián)合位姿估計(jì)來(lái)實(shí)現(xiàn)真實(shí)尺度的深度圖。很榮幸地,我們的文章被CoRL 2022收錄,目前項(xiàng)目代碼已開源,歡迎大家試用。
概述
近年來(lái)隨著人工智能的發(fā)展,自動(dòng)駕駛技術(shù)飛速發(fā)展。以特斯拉為首的視覺派拋棄激光雷達(dá),只依賴于圖像進(jìn)行三維感知。作為純視覺感知方案的基石任務(wù),基于圖像的三維目標(biāo)檢測(cè)天然存在長(zhǎng)尾問題。模型很可能會(huì)對(duì)數(shù)據(jù)集中沒見過(guò)的類別物體漏檢,而這種漏檢往往是致命的。重建出整個(gè)三維場(chǎng)景可以作為一種安全冗余,在三維目標(biāo)檢測(cè)失效的情況下依然可以實(shí)現(xiàn)避障。
作為最簡(jiǎn)單直接且不需要點(diǎn)云標(biāo)簽的三維場(chǎng)景重建方式,在這個(gè)工作中我們重點(diǎn)研究自監(jiān)督環(huán)視深度估計(jì)這個(gè)任務(wù)。自監(jiān)督深度估計(jì)是一個(gè)很經(jīng)典的領(lǐng)域,早在17年就有相關(guān)的工作,但大部分工作都是基于單目圖像的。與單目圖像不同,環(huán)視圖像的各個(gè)視角之間存在overlap,因此可以將多個(gè)視角之間的信息進(jìn)行融合得到更準(zhǔn)確的深度圖預(yù)測(cè)。除此之外,自監(jiān)督單目深度估計(jì)存在尺度歧義(scale-ambiguity)問題,換句話說(shuō),預(yù)測(cè)出的深度圖會(huì)與深度真值差一個(gè)尺度系數(shù)。這是因?yàn)槿绻蛔撕蜕疃葓D同時(shí)乘以一個(gè)相同的尺度,會(huì)使得光度一致性誤差(photometric loss)相同。與單目深度估計(jì)不同,假設(shè)我們可以知道多個(gè)相機(jī)之間的外參,這些外參我們可以比較容易的通過(guò)標(biāo)定得到,外參中包含了世界真實(shí)尺度的信息,因此理論上我們應(yīng)該可以預(yù)測(cè)得到真實(shí)尺度的深度圖。
我們根據(jù)環(huán)視視覺的特點(diǎn)提出了SurroundDepth,方法的核心是通過(guò)融合環(huán)視多視角信息以自監(jiān)督的方式得到高精度且具有真實(shí)尺度的深度圖。我們?cè)O(shè)計(jì)了跨視角transformer以注意力機(jī)制的形式對(duì)多視角的特征進(jìn)行融合。為了恢復(fù)出真實(shí)尺度,我們?cè)谙噜徱暯巧侠肧fM得到稀疏偽點(diǎn)云對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。之后我們提出聯(lián)合位姿估計(jì)去顯示地利用外參信息,對(duì)深度和位姿估計(jì)網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練。在DDAD和nuScenes數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了我們的方法超過(guò)了基線方法,達(dá)到了當(dāng)前最佳性能。
方法
1) 跨視角Transformer (CVT)
2) SfM預(yù)訓(xùn)練
這一步的目的是為了挖掘外參包含的真實(shí)世界尺度信息。一個(gè)自然的做法是以外參作為位姿估計(jì)結(jié)果,在空域上利用photometric loss得到帶有真實(shí)尺度的深度圖。但環(huán)視圖像之間的overlap比較小,這會(huì)使得在訓(xùn)練開始階段,大部分的像素都會(huì)投影到overlap區(qū)域外,導(dǎo)致photometric loss無(wú)效,無(wú)法提供有效的真實(shí)尺度的監(jiān)督。為了解決這個(gè)問題,我們用SIFT描述子對(duì)相鄰視角的圖像提取correspondences,并利用三角化轉(zhuǎn)換成具有真實(shí)尺度的稀疏深度,并利用這些稀疏深度對(duì)深度估計(jì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,使其可以預(yù)測(cè)帶有真實(shí)尺度的深度圖。但由于環(huán)視多視角之間的overlap較小,視角變化較大,因此描述子的準(zhǔn)確度和魯棒性有所降低。為了解決這個(gè)問題,我們首先預(yù)估出overlap區(qū)域,具體為每個(gè)視角圖像左右1/3部分的圖像,我們只在這些區(qū)域提取correspondences。進(jìn)一步地,我們利用對(duì)極約束篩掉噪點(diǎn):
3)聯(lián)合位姿估計(jì)
大部分深度估計(jì)方法用PoseNet估計(jì)時(shí)序上相鄰兩幀的位姿。拓展到環(huán)視深度估計(jì)上,一個(gè)直接的方法是對(duì)每個(gè)視角單獨(dú)預(yù)測(cè)位姿。但這種方法沒有利用視角之間的幾何變化關(guān)系,因此無(wú)法保證位姿之間的多視角一致性。為了解決這個(gè)問題,我們將位姿估計(jì)分解為兩塊。首先我們預(yù)測(cè)全局位姿,具體而言,我們將所有視角圖像送入PoseNet encoder,將特征平均之后再送入decoder:
實(shí)驗(yàn)結(jié)果
我們?cè)贒DAD(Dense Depth for Automated Driving) [1]以及nuScenes [2]上均進(jìn)行了實(shí)驗(yàn),使用了與Monodepth2 [3]相同的backbone網(wǎng)絡(luò)(ImageNet pretrained ResNet34)與pose estimation網(wǎng)絡(luò)來(lái)構(gòu)建SurroundDepth。在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如下:
其中,我們對(duì)比了兩種最先進(jìn)的單目深度估計(jì)方法(Monodepth2 [3] and PackNet-SfM [4])以及一種多相機(jī)深度估計(jì)方法FSM [5]。我們?cè)谙嗤臏y(cè)試環(huán)境下對(duì)比了所有的方法,可以看出,SurroundDepth在兩個(gè)數(shù)據(jù)集上均取得了最好的性能。
此外,由于利用了環(huán)視相機(jī)之間的交互,SurroundDepth相比其他方法的一大優(yōu)勢(shì)在于可以取得絕對(duì)深度估計(jì)。針對(duì)絕對(duì)深度,我們?cè)趦蓚€(gè)數(shù)據(jù)集上進(jìn)行了相關(guān)實(shí)驗(yàn)。可以發(fā)現(xiàn),僅僅利用spatial photometric loss無(wú)法使網(wǎng)絡(luò)學(xué)習(xí)到絕對(duì)深度。通過(guò)我們提出的SfM pretraining方法,網(wǎng)絡(luò)才能有效地預(yù)測(cè)絕對(duì)深度。
-
三維
+關(guān)注
關(guān)注
1文章
512瀏覽量
29042 -
代碼
+關(guān)注
關(guān)注
30文章
4830瀏覽量
69081 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1209瀏覽量
24842
原文標(biāo)題:CoRL 2022 | 清華&天津大學(xué)提出SurroundDepth:自監(jiān)督環(huán)視深度估計(jì)網(wǎng)絡(luò)
文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
如何快速高效的完成汽車前蓋板的三維檢測(cè)?
廣西掃描服務(wù)三維檢測(cè)三維掃描儀
解讀機(jī)器人的幾大避障技術(shù)
三維立體成像X射線顯微鏡在元器件失效分析中的應(yīng)用
MetraSCAN三維掃描儀對(duì)汽車鈑金件三維掃描檢測(cè)解決方案
Handyscan汽車三維掃描服務(wù)尺寸檢測(cè)的應(yīng)用
三維可視化的應(yīng)用和優(yōu)勢(shì)
水上機(jī)器人三維實(shí)時(shí)避障算法研究
無(wú)人機(jī)智能避障
港中文和商湯研究員提出高效的三維點(diǎn)云目標(biāo)檢測(cè)?新框架
![港中文和商湯研究員提出高效的<b class='flag-5'>三維</b>點(diǎn)云<b class='flag-5'>目標(biāo)</b><b class='flag-5'>檢測(cè)</b>?新框架](https://file.elecfans.com/web1/M00/A0/05/o4YBAF1D1ZKAPppOAAAYeIq-R3Y497.jpg)
手持式三維掃描儀對(duì)工業(yè)三維檢測(cè)應(yīng)用鑄造模具沖壓模具三維掃描與檢測(cè)
基于激光雷達(dá)點(diǎn)云的三維目標(biāo)檢測(cè)算法
基于多視角融合的夜間無(wú)人車三維目標(biāo)檢測(cè)
智慧城市_實(shí)景三維|物業(yè)樓三維掃描案例分享_泰來(lái)三維
![智慧城市_實(shí)景<b class='flag-5'>三維</b>|物業(yè)樓<b class='flag-5'>三維</b>掃描案例分享_泰來(lái)<b class='flag-5'>三維</b>](https://file.elecfans.com/web2/M00/71/07/pYYBAGNM-7mAIJKCAADefsVWDqk397.png)
評(píng)論