在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

直接飛行時(shí)間(DToF)視頻的深度一致超分辨率重建

3D視覺工坊 ? 來源:3D視覺工坊 ? 2023-08-30 15:15 ? 次閱讀

1. 摘要

直接飛行時(shí)間(dToF)傳感器因其測(cè)量精度高、結(jié)構(gòu)緊湊、響應(yīng)速度快和低功耗,被視為下一代設(shè)備3D傳感的理想選擇。但由于制造限制,其數(shù)據(jù)空間分辨率較低(例如iPhone dToF約為20×30),需要進(jìn)行超分辨處理才能供下游任務(wù)使用。

本文提出了一種利用高分辨率RGB圖像來增強(qiáng)低分辨率dToF數(shù)據(jù)的方法。不同于傳統(tǒng)的每幀融合RGB和深度的方法,我們采用了多幀融合策略,以減少低分辨率dToF圖像的空間模糊。此外,我們還利用了dToF傳感器提供的深度直方圖信息,這是一種dToF特有的特征,來進(jìn)一步改善空間分辨率。

為了在復(fù)雜的室內(nèi)動(dòng)態(tài)環(huán)境下評(píng)估我們的模型,我們提供了大規(guī)模dToF傳感器數(shù)據(jù)集——DyDToF,這是第一個(gè)具有動(dòng)態(tài)對(duì)象和遵循物理成像過程的RGB-dToF視頻數(shù)據(jù)集。我們相信隨著dToF深度傳感在移動(dòng)設(shè)備上成為主流,我們提出的方法和數(shù)據(jù)集將促進(jìn)行業(yè)的發(fā)展。

1278f8de-46da-11ee-a2ef-92fbcf53809c.png

圖1. 我們第一個(gè)提出了多幀方法,dToF深度視頻超分辨率(DVSR)和直方圖視頻超分辨率(HVSR),利用高分辨率RGB幀引導(dǎo)進(jìn)行低分辨率dToF傳感器視頻進(jìn)行超分辨處理。深度預(yù)測(cè)的點(diǎn)云可視化顯示,通過利用多幀相關(guān)性,與單幀深度增強(qiáng)網(wǎng)絡(luò)相比,DVSR預(yù)測(cè)的幾何形狀更好,而參數(shù)更少;HVSR通過利用dToF直方圖信息進(jìn)一步改善了幾何形狀的保真度并減少了飛點(diǎn)。除每幀估計(jì)的改進(jìn)外,我們強(qiáng)烈建議讀者查看補(bǔ)充視頻,其可視化了整個(gè)序列中時(shí)間穩(wěn)定性的顯著提高。(視頻鏈接:https://www.youtube.com/watch?v=77LTIDqhBjA&ab_channel=ZhanghaoSun)

2. 方法提出

在移動(dòng)設(shè)備上進(jìn)行深度估計(jì),對(duì)導(dǎo)航、游戲和增強(qiáng)/虛擬現(xiàn)實(shí)至關(guān)重要。以前出現(xiàn)的深度估計(jì)傳感器·包括:雙目攝像和結(jié)構(gòu)光等傳感器,以及間接飛行時(shí)間傳感器。最近,dToF傳感器因其精度高、體積小、功耗低而受關(guān)注。但由于制造限制,其空間分辨率很低,每個(gè)像素都整合了場(chǎng)景局部區(qū)域的深度,導(dǎo)致高分辨率重建存在明顯的空間模糊。以前基于RGB圖像引導(dǎo)的深度補(bǔ)全和超分辨率方法,要么假設(shè)存在高分辨采樣,要么使用簡(jiǎn)化成像模型,直接應(yīng)用到dToF數(shù)據(jù)效果不佳。如圖1第2列所示,預(yù)測(cè)遭受幾何畸變和飛點(diǎn)的影響。另一限制是它們僅處理單幀,而實(shí)際應(yīng)用需要視頻流輸入,存在一定的時(shí)間連貫需求。逐幀處理RGB-depth視頻會(huì)忽略時(shí)間相關(guān)性,導(dǎo)致深度估計(jì)中顯著的時(shí)間抖動(dòng)。

本文提出從兩個(gè)方面解決dToF數(shù)據(jù)的空間模糊:利用RGB-dToF視頻序列中的多幀信息融合和dToF直方圖信息。我們?cè)O(shè)計(jì)了dToF視頻超分辨網(wǎng)絡(luò)DVSR,輸入是高分辨率RGB圖像序列和低分辨率dToF深度圖,輸出是高分辨率深度圖序列。受RGB視頻處理算法的啟發(fā),我們放寬多視圖約束,使用容錯(cuò)的多幀對(duì)齊。相比逐幀處理,我們的網(wǎng)絡(luò)明顯提升了精度和時(shí)間連貫性。與逐幀處理基線相比,DVSR顯著提高了預(yù)測(cè)精度和時(shí)間一致性,如圖1第3列所示。

此外,dToF傳感器可提供每個(gè)像素的深度直方圖。我們?cè)O(shè)計(jì)了匹配該直方圖的流程,將其融入網(wǎng)絡(luò),形成直方圖視頻超分辨框架HVSR。這進(jìn)一步消除了空間模糊。如圖1第4列所示,與DVSR相比,HVSR的估計(jì)質(zhì)量進(jìn)一步提高。

深度網(wǎng)絡(luò)的訓(xùn)練和測(cè)試數(shù)據(jù)集也很重要。以前,真實(shí)采集和高質(zhì)量合成數(shù)據(jù)集都被廣泛使用。但是,它們都不包含具有大量動(dòng)態(tài)對(duì)象的RGB-D視頻序列。為此,我們引入了DyDToF,這是一個(gè)具有動(dòng)態(tài)動(dòng)物(例如貓和狗)和dToF模擬器的多樣化室內(nèi)場(chǎng)景的合成數(shù)據(jù)集。我們綜合了RGB圖像序列、深度圖、表面法線圖、材料反照率和相機(jī)姿態(tài)序列。據(jù)我們所知,這是第一個(gè)提供動(dòng)態(tài)室內(nèi) RGB 深度視頻數(shù)據(jù)集。我們將基于物理的虛擬 dToF 傳感器集成到 DyDToF 數(shù)據(jù)集中,并分析(1)所提出的視頻處理框架如何推廣到動(dòng)態(tài)場(chǎng)景,以及(2)低級(jí)數(shù)據(jù)模式如何促進(jìn)網(wǎng)絡(luò)訓(xùn)練和評(píng)估。

總結(jié)一下,我們的貢獻(xiàn)有:

引入RGB引導(dǎo)的dToF視頻深度超分辨率以解決這種移動(dòng)3D傳感器固有的空間模糊性。

提出基于神經(jīng)網(wǎng)絡(luò)的RGB-dToF視頻超分辨率算法,可以高效利用視頻中包含的豐富多幀信息和獨(dú)特的dToF直方圖。

提出第一個(gè)具有動(dòng)態(tài)物體和基于物理的dToF傳感器模擬的室內(nèi)RGB-D數(shù)據(jù)集。我們的算法在所提出的數(shù)據(jù)集上進(jìn)行了系統(tǒng)評(píng)估,以驗(yàn)證精度和時(shí)間一致性的顯著提升。

3. dToF基礎(chǔ)簡(jiǎn)介

本節(jié)簡(jiǎn)要介紹低分辨率dToF傳感器的圖像形成模型,并詳細(xì)闡述它與以前的深度增強(qiáng)任務(wù)的不同之處。

1287d1f6-46da-11ee-a2ef-92fbcf53809c.png

圖2. 直接飛行時(shí)間(dToF)傳感器工作原理。每個(gè)dToF像素記錄一個(gè)包含F(xiàn)oV內(nèi)補(bǔ)丁深度信息的直方圖,導(dǎo)致空間模糊。dToF傳感器可以在“峰值檢測(cè)”模式或直方圖模式下運(yùn)行。

如圖2所示,短光脈沖由脈沖激光器生成并發(fā)射到場(chǎng)景中。脈沖會(huì)散射,一部分光子將反射回dToF檢測(cè)器,觸發(fā)到達(dá)事件并記錄時(shí)間戳。根據(jù)激光發(fā)射和接收之間的時(shí)間差,場(chǎng)景深度由比例關(guān)系確定,其中是時(shí)間差,是光速。每個(gè)dToF像素捕獲其各自的視場(chǎng)(FoV)內(nèi)的所有場(chǎng)景點(diǎn)反射的光,該FoV由整體傳感器FoV和空間分辨率確定。因此,它通常在多個(gè)時(shí)間槽記錄光子到達(dá)事件。第k個(gè)時(shí)間槽中的信號(hào)幅度可以表示為

12b3a98e-46da-11ee-a2ef-92fbcf53809c.png

其中是時(shí)間槽大小,是時(shí)間槽數(shù)(由dToF像素電路確定),是激光脈沖時(shí)間形狀,、是FoV內(nèi)場(chǎng)景點(diǎn)的深度和輻射度。我們稱單個(gè)dToF像素記錄的維信號(hào)為“直方圖”。我們?cè)谙旅娴哪M和合成數(shù)據(jù)生成中使用這個(gè)圖像形成模型。與傳統(tǒng)的深度超分任務(wù)相似,這里我們假設(shè)低空間分辨率是輸入數(shù)據(jù)中的唯一退化。

dToF數(shù)據(jù)可以以兩種模式處理:“峰值檢測(cè)”模式和直方圖模式。在第一種模式下,在每個(gè)像素處執(zhí)行直方圖峰值檢測(cè)。只有具有最強(qiáng)信號(hào)的峰值深度值被發(fā)送到后處理網(wǎng)絡(luò)。在第二種模式下,利用直方圖中包含的更多信息。在這兩種模式下,dToF數(shù)據(jù)都包含相對(duì)精確的深度信息,而側(cè)向空間信息只在低分辨率下已知(例如,所需分辨率的16倍更低)。這種空間模糊性使得深度超分任務(wù)比傳統(tǒng)的稀疏深度補(bǔ)全任務(wù)更具挑戰(zhàn)性。

4. 方法詳解

我們的網(wǎng)絡(luò)輸入是T幀序列。每幀包含一個(gè)空間分辨率為的RGB圖像和一個(gè)空間分辨率為的dToF數(shù)據(jù),其中是下采樣因子(我們?cè)谒袑?shí)驗(yàn)中使用)。在直方圖模式下,每個(gè)幀的dToF數(shù)據(jù)在時(shí)間維度上具有個(gè)時(shí)間槽,導(dǎo)致的數(shù)據(jù)量。在兩種模式下,我們的網(wǎng)絡(luò)預(yù)測(cè)一個(gè)高分辨率的深度圖序列。

4.1 dToF深度視頻超分辨率

12bbc600-46da-11ee-a2ef-92fbcf53809c.png

圖3. (a)所提出的dToF視頻超分辨率框架。它通常遵循兩階段預(yù)測(cè)策略,其中兩個(gè)階段都預(yù)測(cè)一個(gè)深度圖和置信圖,并融合以獲得最終預(yù)測(cè)。特征在幀之間進(jìn)行對(duì)齊和聚合,可以是雙向的或僅前向的。(b)基于靈活變形的多幀特征聚合示意圖。與嚴(yán)格遵循估計(jì)的光流不同,來自多個(gè)候選位置的特征在幀之間進(jìn)行變形。(c)所提出的直方圖處理流程示意圖。完整直方圖通過峰值檢測(cè)和再分箱進(jìn)行壓縮以產(chǎn)生近似直方圖。在置信預(yù)測(cè)階段,計(jì)算輸入直方圖與預(yù)測(cè)深度值生成的直方圖之間的直方圖距離,以估計(jì)預(yù)測(cè)的置信度。

整體RGB-dToF視頻超分辨率(DVSR)網(wǎng)絡(luò)架構(gòu)如圖3(a)所示。該網(wǎng)絡(luò)以遞歸方式操作,其中多幀信息以僅前向或雙向傳播。在每幀中,我們執(zhí)行兩階段處理以預(yù)測(cè)高分辨率深度圖(與RGB引導(dǎo)具有相同分辨率)。在第一階段,dToF傳感器數(shù)據(jù)與RGB引導(dǎo)融合以生成初始高分辨率深度預(yù)測(cè)和置信度圖。第一階段的處理結(jié)果和dToF傳感器數(shù)據(jù)作為輸入饋入第二階段細(xì)化網(wǎng)絡(luò),以生成第二個(gè)深度預(yù)測(cè)和置信度圖。根據(jù)置信度圖,對(duì)初始和第二個(gè)深度預(yù)測(cè)進(jìn)行融合以生成最終預(yù)測(cè)。除特征提取器和解碼器外,每個(gè)階段都包含一個(gè)多幀傳播模塊和一個(gè)融合骨干網(wǎng)絡(luò),以充分交換時(shí)間信息并在時(shí)間上穩(wěn)定深度估計(jì)。詳細(xì)的網(wǎng)絡(luò)架構(gòu)在補(bǔ)充材料中提供。

以前的單目深度視頻處理算法通常對(duì)多視圖幾何提出“硬”圖心約束。在立體視頻處理中也采用“硬”對(duì)應(yīng)搜索和運(yùn)動(dòng)對(duì)準(zhǔn)。相反,我們給網(wǎng)絡(luò)選擇多個(gè)有用對(duì)應(yīng)項(xiàng)的自由性。我們對(duì)預(yù)訓(xùn)練的光流估計(jì)器進(jìn)行聯(lián)合微調(diào),而不對(duì)估計(jì)的流施加監(jiān)督。我們還在基于光流的變形后包含可變形卷積模塊,以挑選多個(gè)特征聚合候選項(xiàng)(如圖3(b)所示)。這一操作進(jìn)一步增加了靈活性,并補(bǔ)償流估計(jì)中的錯(cuò)誤。這一設(shè)計(jì)選擇至少提供兩個(gè)好處:首先,該算法可以輕松推廣到靜態(tài)和這一設(shè)計(jì)選擇至少提供兩個(gè)好處:首先,該算法可以輕松推廣到靜態(tài)和動(dòng)態(tài)環(huán)境。其次,幀之間的對(duì)應(yīng)檢測(cè)不需要準(zhǔn)確。盡管深度學(xué)習(xí)方法最近有進(jìn)展,但仍缺少輕量、快速且準(zhǔn)確的流估計(jì)器。特別是,為了在幀之間準(zhǔn)確變形深度值,需要3D場(chǎng)景流估計(jì),這比2D光流估計(jì)更具挑戰(zhàn)性。最先進(jìn)的場(chǎng)景流估計(jì)器在準(zhǔn)確性和僅限于剛體運(yùn)動(dòng)方面仍然存在比較低的問題。

4.2 dToF直方圖視頻超分辨率

基于深度視頻超分辨率網(wǎng)絡(luò),我們進(jìn)一步提出了一個(gè)直方圖視頻超分辨率(HVSR)網(wǎng)絡(luò),以利用dToF傳感器提供的獨(dú)特直方圖信息。即使使用強(qiáng)大的機(jī)器,處理完整的直方圖數(shù)據(jù)也不可行。因此,我們首先在直方圖的時(shí)間維度上執(zhí)行簡(jiǎn)單的壓縮操作。對(duì)直方圖進(jìn)行再分箱以在單目深度估計(jì)中強(qiáng)制網(wǎng)絡(luò)關(guān)注順序關(guān)系和更重要的深度范圍的技術(shù)已被提出。如圖3(c)所示,這里我們提出了一個(gè)類似的直方圖壓縮策略:首先,我們閾值直方圖以去除低于噪聲水平的信號(hào)。然后,將直方圖均勻劃分為段,并在每個(gè)段內(nèi)檢測(cè)峰值。然后,我們將直方圖再分箱為由部分邊界和峰值定義的個(gè)時(shí)間槽。這個(gè)的數(shù)據(jù)量輸入神經(jīng)網(wǎng)絡(luò)。

我們?cè)趦蓚€(gè)方面利用壓縮后的直方圖:首先,將檢測(cè)到的個(gè)峰值作為兩階段網(wǎng)絡(luò)的輸入進(jìn)行連接。其次,我們計(jì)算直方圖匹配誤差來促進(jìn)置信度預(yù)測(cè)。預(yù)測(cè)的高分辨率深度圖被劃分為補(bǔ)丁,每個(gè)補(bǔ)丁對(duì)應(yīng)一個(gè)dToF像素。將補(bǔ)丁內(nèi)的深度值根據(jù)圖像形成模型(等式1)轉(zhuǎn)換為直方圖。然后,將預(yù)測(cè)的直方圖與輸入的dToF直方圖進(jìn)行比較。我們根據(jù)Wasserstein距離定義這兩個(gè)直方圖之間的差異。

1301571a-46da-11ee-a2ef-92fbcf53809c.png

較大的表示對(duì)應(yīng)補(bǔ)丁內(nèi)的預(yù)測(cè)不太可靠,應(yīng)該在細(xì)化中被賦予較低的置信度。直方圖匹配誤差被輸入到網(wǎng)絡(luò)兩階段中的置信度預(yù)測(cè)層。

4.3 實(shí)現(xiàn)細(xì)節(jié)

我們?cè)赥arTanAir大規(guī)模RGB-D視頻數(shù)據(jù)集上訓(xùn)練所提出的dToF深度和直方圖視頻超分辨率網(wǎng)絡(luò)。我們使用14個(gè)場(chǎng)景進(jìn)行訓(xùn)練,每個(gè)場(chǎng)景有300、600、600、600幀。我們從真值深度圖按照?qǐng)D像形成模型(等式1)模擬dToF原始數(shù)據(jù)。由于TarTanAir數(shù)據(jù)集僅提供RGB圖像,我們使用平均灰度圖像來逼近輻射度。我們?cè)谒岢龅腄yDToF數(shù)據(jù)集中解決了這個(gè)問題,以獲得更真實(shí)的dToF模擬。

我們使用每幀的Charbonnier損失與和梯度損失對(duì)網(wǎng)絡(luò)進(jìn)行監(jiān)督。

130f129c-46da-11ee-a2ef-92fbcf53809c.png

其中分別是第幀的真值和估計(jì)深度圖,是梯度算子。在訓(xùn)練過程中,我們將數(shù)據(jù)集中的長(zhǎng)序列劃分為較短的幀序列。對(duì)于每個(gè)視頻片段,我們將深度值裁剪到[0,40]并歸一化到[0,1]。在所有實(shí)驗(yàn)中,我們將空間超分辨率因子設(shè)置為16,壓縮直方圖中的時(shí)間槽數(shù)設(shè)置為4。我們總共訓(xùn)練大約15萬(wàn)次迭代,批量大小為32。我們使用Adam優(yōu)化器,學(xué)習(xí)率為,以及學(xué)習(xí)率衰減因子為0.2的多步學(xué)習(xí)率衰減調(diào)度器。在8×Nvidia Tesla-V100 GPU上訓(xùn)練大約需要2天。

5. 結(jié)果展示

我們?cè)诙鄠€(gè)RGB-D數(shù)據(jù)集上對(duì)所提出的dToF視頻超分辨率網(wǎng)絡(luò)進(jìn)行評(píng)估。由于沒有現(xiàn)成的算法直接適用于dToF傳感器超分任務(wù),我們重新訓(xùn)練了兩種最新的每幀深度增強(qiáng)/補(bǔ)全網(wǎng)絡(luò)NLSPN和PENet,使用相同的訓(xùn)練設(shè)置作為我們的基線。另一個(gè)基線是我們將所提出的DVSR網(wǎng)絡(luò)以每幀方式操作。我們使用三個(gè)指標(biāo)評(píng)估深度超分辨結(jié)果:每幀絕對(duì)誤差(AE)(更低更好)、每幀指標(biāo)(更高更好)和時(shí)間端點(diǎn)誤差(TEPE)(更低更好)。

13213eea-46da-11ee-a2ef-92fbcf53809c.png

其中是從第幀到第幀的變形運(yùn)算。我們使用真值光流進(jìn)行這種變形,并使用PyTorch3D中的遮擋感知變形模塊來避免遮擋導(dǎo)致的偽像。

13287fca-46da-11ee-a2ef-92fbcf53809c.png

表1. 在TarTanAir、Replica和DyDToF數(shù)據(jù)集上的定量比較。粗體表示最佳結(jié)果,下劃線表示第二佳結(jié)果。我們的網(wǎng)絡(luò)在合成的TarTanAir數(shù)據(jù)集上訓(xùn)練,其包含靜態(tài)場(chǎng)景,但泛化良好到真實(shí)場(chǎng)景的Replica數(shù)據(jù)集和動(dòng)態(tài)場(chǎng)景的DyDToF數(shù)據(jù)集。

TarTanAir數(shù)據(jù)集評(píng)估。我們?cè)赥arTanAir數(shù)據(jù)集中使用4個(gè)場(chǎng)景進(jìn)行評(píng)估,每個(gè)場(chǎng)景分別有300、600、600、600幀。如表1所示,兩個(gè)視頻處理網(wǎng)絡(luò)一致優(yōu)于每幀基線,盡管參數(shù)更少。這驗(yàn)證了多幀信息聚合的有效性,因?yàn)楫?dāng)以每幀方式操作時(shí),所提出的網(wǎng)絡(luò)性能較差。通過利用dToF直方圖信息,HVSR進(jìn)一步提升了估計(jì)質(zhì)量。

1355441a-46da-11ee-a2ef-92fbcf53809c.png

圖4. 在TarTanAir場(chǎng)景(a)和Replica場(chǎng)景(b)上的定性比較。DVSR和HVSR相比每幀基線明顯優(yōu)越,尤其是在放大區(qū)域。請(qǐng)參閱補(bǔ)充視頻或項(xiàng)目頁(yè)面以獲得更好的時(shí)間可視化。

我們?cè)趫D4(a)中進(jìn)行定性比較。與每幀基線相比,視頻處理網(wǎng)絡(luò)取得了更高的深度質(zhì)量,特別是在細(xì)結(jié)構(gòu)(如椅子扶手和薄枕頭)方面(更好的可視化在放大的邊界框中)。顯然,在多幀中聚合信息可以緩解處理中的空間模糊性,因?yàn)榧?xì)結(jié)構(gòu)在一幀中可能不可見,但在其鄰近幀中可能出現(xiàn)。

Replica數(shù)據(jù)集評(píng)估。Replica是一個(gè)真實(shí)捕獲的室內(nèi)3D數(shù)據(jù)集,具有真實(shí)的場(chǎng)景紋理和高質(zhì)量幾何。我們使用相同的數(shù)據(jù)合成流水線從真值深度和RGB圖像生成低分辨率的dToF數(shù)據(jù)。我們?cè)诒?第二列中展示了我們的網(wǎng)絡(luò)(無(wú)微調(diào))在Replica數(shù)據(jù)集上的跨數(shù)據(jù)集泛化能力。由于Replica數(shù)據(jù)集中沒有真值光流,我們不評(píng)估時(shí)間指標(biāo)。我們還在圖4(b)中進(jìn)行定性比較。

1377b770-46da-11ee-a2ef-92fbcf53809c.png

圖5. x-t切片(沿虛線)用于時(shí)間穩(wěn)定性可視化。與視頻處理結(jié)果相比,每幀基線的時(shí)間輪廓更加嘈雜,而HVSR揭示了更多細(xì)節(jié)。

時(shí)間穩(wěn)定性。我們還在圖5中可視化估計(jì)深度圖的x-t切片的時(shí)間穩(wěn)定性。每幀處理引入明顯的時(shí)間抖動(dòng),在x-t切片上可視化為嘈雜/模糊偽像。DVSR和HVSR都具有清晰的x-t切片,展示了它們的高時(shí)間穩(wěn)定性,而HVSR進(jìn)一步揭示了DVSR預(yù)測(cè)中不可見的細(xì)結(jié)構(gòu)。請(qǐng)參閱補(bǔ)充視頻或項(xiàng)目頁(yè)面以獲得更好的時(shí)間可視化。

6. DyDToF RGB-dToF視頻數(shù)據(jù)集

由于缺乏動(dòng)態(tài)RGB-D視頻數(shù)據(jù)集,我們引入了DyDToF,其中室內(nèi)環(huán)境中插入了動(dòng)物動(dòng)畫。數(shù)據(jù)集概述如圖6所示。該數(shù)據(jù)集包含100個(gè)序列(總共45k幀)的RGB圖像、深度圖、法線圖、材料反照率和相機(jī)姿態(tài),這些都是從Unreal Engine與開源插件EasySynth生成的。我們使用約30種動(dòng)物網(wǎng)格(包括狗、貓、鳥等)和約50種相關(guān)動(dòng)畫生成數(shù)據(jù)集,并將它們放置在20個(gè)室內(nèi)環(huán)境中(包括學(xué)校、辦公室、公寓等)。所有3D資產(chǎn)都從公開可用的資源中購(gòu)買。

13d03c42-46da-11ee-a2ef-92fbcf53809c.png

圖6. DyDToF數(shù)據(jù)集概述。(a)我們將動(dòng)態(tài)動(dòng)物模型插入到各種高質(zhì)量的室內(nèi)環(huán)境地圖中。(b)我們生成RGB圖像、深度圖、法線圖、材料反照率和相機(jī)姿態(tài)序列。

6.1 動(dòng)態(tài)對(duì)象評(píng)估

我們?cè)贒yDToF數(shù)據(jù)集上進(jìn)行了類似評(píng)估,重點(diǎn)關(guān)注動(dòng)態(tài)對(duì)象的深度估計(jì)。定量比較如表1第3列所示。我們還在圖7(a)中展示了一幅來自吠叫狗動(dòng)畫的幀,進(jìn)行定性比較。雖然TarTanAir數(shù)據(jù)集包含非常有限的動(dòng)態(tài)對(duì)象,但所提出的視頻網(wǎng)絡(luò)推廣到動(dòng)態(tài)場(chǎng)景的效果很好。我們將此歸因于我們靈活的、容錯(cuò)的多幀對(duì)齊模塊。請(qǐng)參閱我們的補(bǔ)充材料中的消融研究。

13db3958-46da-11ee-a2ef-92fbcf53809c.png

圖7. 在DyDToF數(shù)據(jù)集上的評(píng)估。(a)提出的網(wǎng)絡(luò)DVSR和HVSR在具有動(dòng)態(tài)對(duì)象的情況下表現(xiàn)良好,而每幀基線遭受畸變和模糊的影響。(b) 在TarTanAir數(shù)據(jù)集上訓(xùn)練的HVSR在RGB圖像強(qiáng)度與渲染方程計(jì)算的輻射度之間存在不匹配時(shí)會(huì)失敗(II)。通過在DyDToF數(shù)據(jù)集上進(jìn)行微調(diào),這種偽像大大得到緩解,DyDToF數(shù)據(jù)集采用了更真實(shí)的dToF模擬(III)。

6.2 更真實(shí)的dToF模擬

如第5節(jié)所述,由于TarTanAir數(shù)據(jù)集不提供材料反照率和表面法線,我們用RGB圖像逼近輻射度。根據(jù)渲染方程,實(shí)際輻射度由材料反照率、觀察方向和表面法線確定。

14032fc6-46da-11ee-a2ef-92fbcf53809c.png

由于我們假設(shè)dToF傳感器中的激光器和接收器共定位,因此觀察方向與激光照明方向平行。

我們?cè)贒yDToF數(shù)據(jù)集中使用這個(gè)公式生成更真實(shí)的dToF模擬,并微調(diào)在TarTanAir數(shù)據(jù)集上預(yù)訓(xùn)練的網(wǎng)絡(luò)。我們?cè)趫D7(b)中展示一個(gè)極端情況,其中架子的一側(cè)面具有非常低的輻射度,因?yàn)楸砻娣ň€與dToF激光發(fā)射方向近乎垂直。由于光源與攝像頭不共定位,RGB圖像中不存在此效應(yīng)。如第3列(I)所示,當(dāng)在dToF直方圖模擬中使用RGB圖像時(shí),預(yù)訓(xùn)練的HVSR推廣良好。但是,當(dāng)在dToF模擬中使用物理正確的輻射度時(shí),預(yù)訓(xùn)練的HVSR失敗,出現(xiàn)大的幾何畸變(II)。通過在DyDToF上微調(diào)HVSR,它適應(yīng)了預(yù)測(cè)的直方圖與基礎(chǔ)幾何之間更真實(shí)的關(guān)系,并避免失敗(III)。

7. 多幀融合消融研究

1411dfda-46da-11ee-a2ef-92fbcf53809c.png

表2. 多幀融合模塊的消融研究。

我們首先比較各種多幀融合模塊,如表2所示。在最簡(jiǎn)單的情況下,多個(gè)幀的特征被連接而不對(duì)齊。這顯著降低了性能,因?yàn)椴煌臻g位置的特征被融合在一起。基于流的對(duì)齊使用預(yù)訓(xùn)練(固定)的光流估計(jì)器對(duì)齊幀之間的特征。但是,這種方法受到流估計(jì)不準(zhǔn)確和前景-背景混合的基本問題的影響。我們提出的框架中的靈活變形避免了這些問題,并給網(wǎng)絡(luò)選擇從變形特征中挑選有用信息的自由度。我們的完整多幀融合模塊利用雙向傳播。但是,這禁止在線操作,因?yàn)樾枰磥硇畔ⅰ榇?我們用僅前向傳播替換雙向傳播。如表2第三行所示,這也犧牲了性能,但與每幀處理基線和其他低效對(duì)齊策略相比,它仍實(shí)現(xiàn)了一致的改進(jìn)。

8. 結(jié)論

本文針對(duì)dToF傳感器的數(shù)據(jù)特點(diǎn),設(shè)計(jì)了視頻深度超分辨網(wǎng)絡(luò)。多幀融合可明顯提升精度、時(shí)間連貫性和對(duì)動(dòng)態(tài)場(chǎng)景的泛化。使用傳感器的直方圖信息也可進(jìn)一步改善細(xì)節(jié)。我們構(gòu)建的第一室內(nèi)動(dòng)態(tài)RGB-D數(shù)據(jù)集——DyDToF,能更好地反映實(shí)際應(yīng)用場(chǎng)景,并具有dToF傳感器的仿真。它不僅限于dToF傳感器應(yīng)用,還有可能為通用動(dòng)態(tài)場(chǎng)景3D重建和新視圖合成算法確立新的基準(zhǔn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2553

    文章

    51407

    瀏覽量

    756653
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1209

    瀏覽量

    24835
  • dToF
    +關(guān)注

    關(guān)注

    2

    文章

    93

    瀏覽量

    8081

原文標(biāo)題:?CVPR2023 | 直接飛行時(shí)間(DToF)視頻的深度一致超分辨率重建

文章出處:【微信號(hào):3D視覺工坊,微信公眾號(hào):3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    重磅新品 | 美芯晟發(fā)布全集成直接飛行時(shí)間dToF)傳感器MT3801

    dToF技術(shù)作為傳感器領(lǐng)域的次重大突破,正在消費(fèi)電子、車載和工業(yè)自動(dòng)化等領(lǐng)域展現(xiàn)其重要性和極強(qiáng)的應(yīng)用潛力。 相較于iToF(間接飛行時(shí)間)技術(shù),dToF通過
    發(fā)表于 01-02 16:31 ?746次閱讀
    重磅新品 | 美芯晟發(fā)布全集成<b class='flag-5'>直接</b><b class='flag-5'>飛行時(shí)間</b>(<b class='flag-5'>dToF</b>)傳感器MT3801

    請(qǐng)問TVP5158分辨率D1與HalfD1是如何轉(zhuǎn)換的?

    這段時(shí)間在調(diào)試TVP5158模擬視頻采集芯片,發(fā)現(xiàn)輸出數(shù)據(jù)有三種分辨率D1、HalfD1和CIF,手冊(cè)上面只是說明了D1、HalfD1和CIF三者的水平像素點(diǎn)和垂直行數(shù)的關(guān)系,但是這三種分辨
    發(fā)表于 12-23 06:31

    請(qǐng)問ISO7720的時(shí)間分辨率有多少?

    ),HRPWM的時(shí)間分辨率是0.18ns,理論上HRPWM的精度為0.0095%。 2)HRPWM輸出通過RC濾波接到ISO7720的輸入,R=10Ω,C=22pF。 3)ISO7720輸出接功率芯片的驅(qū)動(dòng)
    發(fā)表于 11-29 08:25

    HDMI接口支持哪些視頻分辨率

    支持最大分辨率4K(3840x2160)@60Hz。與HDMI 1.4相比,HDMI 2.0在4K分辨率下的刷新提高了倍,達(dá)到每秒60幀,提供更流暢的
    的頭像 發(fā)表于 11-27 14:14 ?3866次閱讀

    視頻處理器的分辨率是如何管理的

    ? ? 隨著電子應(yīng)用技術(shù)和消費(fèi)市場(chǎng)的不斷發(fā)展,LED顯示屏的顯示單元之間的間距正在逐漸縮小,然而,顯示屏的整體面積卻在不斷擴(kuò)大。為了滿足這趨勢(shì)下對(duì)超大輸出分辨率的需求,視頻處理器和拼接器變得
    的頭像 發(fā)表于 11-11 15:25 ?345次閱讀
    <b class='flag-5'>視頻</b>處理器的<b class='flag-5'>分辨率</b>是如何管理的

    艾邁斯歐司朗發(fā)布新代單區(qū)直接飛行時(shí)間(dToF)傳感器TMF8806

    艾邁斯歐司朗今日宣布,發(fā)布新代單區(qū)直接飛行時(shí)間(dToF)傳感器TMF8806,可以用于家用與工業(yè)機(jī)器人提供障礙物檢測(cè)與防撞解決方案。
    的頭像 發(fā)表于 09-07 10:41 ?422次閱讀

    視頻分技術(shù)是指什么?

    ??分辨率技術(shù)(SuperResolution),是通過硬件或軟件的方法提高圖像或視頻幀的分辨率,通過系列低
    的頭像 發(fā)表于 09-04 08:05 ?476次閱讀
    <b class='flag-5'>視頻</b><b class='flag-5'>超</b>分技術(shù)是指什么?

    Arm精銳超級(jí)分辨率技術(shù)解析

    近日,Arm 推出了 Arm 精銳超級(jí)分辨率技術(shù) (Arm Accuracy Super Resolution, Arm ASR),這是款面向移動(dòng)設(shè)備進(jìn)行優(yōu)化升級(jí)的出色開源超級(jí)分辨率(下文簡(jiǎn)稱“
    的頭像 發(fā)表于 09-03 11:28 ?1044次閱讀
    Arm精銳超級(jí)<b class='flag-5'>分辨率</b>技術(shù)解析

    VR顯示器分辨率的選擇

    、VR顯示器分辨率的重要性 1.1 分辨率與視覺體驗(yàn) 分辨率是指顯示器上能夠顯示的像素點(diǎn)的數(shù)量,通常用水平像素?cái)?shù)×垂直像素?cái)?shù)來表示。在VR顯示器中,
    的頭像 發(fā)表于 07-08 10:29 ?1282次閱讀

    頻譜儀分辨率帶寬和視頻帶寬的關(guān)系

    引言 頻譜儀是種用于測(cè)量信號(hào)頻率特性的電子測(cè)量?jī)x器,廣泛應(yīng)用于通信、雷達(dá)、電子對(duì)抗等領(lǐng)域。頻譜儀的性能指標(biāo)主要包括分辨率帶寬、視頻帶寬、掃描速度等。其中,分辨率帶寬和
    的頭像 發(fā)表于 06-03 09:56 ?1329次閱讀

    直接飛行時(shí)間dToF) SiPM LiDAR 平臺(tái)SECO-測(cè)距儀-GEVK數(shù)據(jù)手冊(cè)

    電子發(fā)燒友網(wǎng)站提供《直接飛行時(shí)間dToF) SiPM LiDAR 平臺(tái)SECO-測(cè)距儀-GEVK數(shù)據(jù)手冊(cè).rar》資料免費(fèi)下載
    發(fā)表于 04-26 16:03 ?1次下載
    <b class='flag-5'>直接</b><b class='flag-5'>飛行時(shí)間</b>(<b class='flag-5'>dToF</b>) SiPM LiDAR 平臺(tái)SECO-測(cè)距儀-GEVK數(shù)據(jù)手冊(cè)

    基于CNN的圖像分辨率示例

    考慮單個(gè)低分辨率圖像,首先使用雙三次插值將其放大到所需的大小,這是執(zhí)行的唯預(yù)處理。將插值圖像表示為Y。我們的目標(biāo)是從Y中恢復(fù)與真實(shí)高分辨率圖像X盡可能相似的圖像F (Y) 。
    的頭像 發(fā)表于 03-11 11:40 ?763次閱讀
    基于CNN的圖像<b class='flag-5'>超</b><b class='flag-5'>分辨率</b>示例

    意法半導(dǎo)體宣布推出款全能型、直接飛行時(shí)間3D激光雷達(dá)模組

    直接飛行時(shí)間dToF)傳感器領(lǐng)域處于前沿地位,二十億顆FlightSense? dToF傳感器產(chǎn)品銷量,意法半導(dǎo)體再次發(fā)力,針對(duì)相機(jī)輔助功能、增強(qiáng)現(xiàn)實(shí)(AR)/虛擬現(xiàn)實(shí)(VR)、3
    的頭像 發(fā)表于 03-06 09:34 ?773次閱讀

    EVAL_PASCO2_SENSOR為什么無(wú)法從較低的分辨率高速獲得更高的分辨率

    我有個(gè)圖像 EVAL_PASCO2_SENSOR,支持高達(dá) 3840x2160 分辨率的超高速和高速。 我能以快的速度拍攝所有靜止畫面。 但是,當(dāng)我嘗試獲得更高分辨率(3840x2
    發(fā)表于 02-22 07:58

    編碼器分辨率是什么意思 編碼器分辨率和脈沖數(shù)的關(guān)系

    線稱為分辨率,也稱解析分度、或直接稱多少線,般在每轉(zhuǎn)分度5~10000線。 按照編碼器支持的分辨率可以把編碼器分成標(biāo)清編碼器(720X480及以下,PAL制幀率最高為50, NTSC
    的頭像 發(fā)表于 02-21 18:07 ?4548次閱讀
    編碼器<b class='flag-5'>分辨率</b>是什么意思 編碼器<b class='flag-5'>分辨率</b>和脈沖數(shù)的關(guān)系
    主站蜘蛛池模板: 色多多成视频人在线观看 | 欧美特黄特色aaa大片免费看 | 天天视频天天爽 | 九九精品影院 | 欧美二级| 日本人zzzwww色视频 | 免费番茄社区性色大片 | 男男浪荡双性受hplay | 午夜在线影院 | www.成人在线 | 宅男666在线永久免费观看 | 五月天婷婷亚洲 | 综合免费一区二区三区 | 久久国产精品系列 | 四虎hu | 久色乳综合思思在线视频 | 午夜美女视频在线观看高清 | 天天色综| 在线免费黄 | 欧美性网 | 久久天天丁香婷婷中文字幕 | 久久综合五月婷婷 | 免费人成网站 | 天天综合天天干 | 国产黄色在线网站 | 七月婷婷精品视频在线观看 | 稀缺资源呦视频在线网站 | 456亚洲人成影院在线观 | 日韩一级欧美一级在线观看 | 性夜影院爽黄a爽在线看香蕉 | 一区二区三区四区无限乱码在线观看 | 日日爽夜夜爽 | 综合网在线| ww欧洲ww欧洲视频 | 夜夜爽天天爽 | 欧美中字 | 激情文学综合丁香 | 亚洲乱码一区二区三区在线观看 | you ji z z日本人在线观看 | 美女又黄又免费的视频 | 婷婷六月天激情 |