好看的小说完本推荐,怎么写网络小说,女人书籍排行榜

眾所周知：視頻是可以P的。

這不，在CVPR 2022收錄的論文中，就出現(xiàn)了這么一個(gè)P圖神器，它可以分分鐘給你上演各種人像消失大法，不留任何痕跡。

去水印、填補(bǔ)缺失更是不在話(huà)下，并且各種分辨率的視頻都能hold住。

正如你所見(jiàn)，這個(gè)模型如此絲滑的表現(xiàn)讓它在兩個(gè)基準(zhǔn)數(shù)據(jù)集上都實(shí)現(xiàn)了SOTA性能。

△與SOTA方法的對(duì)比

同時(shí)它的推理時(shí)間和計(jì)算復(fù)雜表現(xiàn)也很搶眼：

前者比此前的方法快了近15倍，可以在Titan XP GPU上以每幀0.12秒的速度處理432 × 240的視頻；后者則是在所有比較的SOTA方法中實(shí)現(xiàn)了最低的FLOPs分?jǐn)?shù)。

如此神器，什么來(lái)頭？

改善光流法

目前很多視頻修復(fù)算法利用的都是光流法（Optical flow）。

也就是利用圖像序列中像素在時(shí)間域上的變化以及相鄰幀之間的相關(guān)性，找到上一幀跟當(dāng)前幀之間存在的對(duì)應(yīng)關(guān)系，從而計(jì)算出相鄰幀之間物體的運(yùn)動(dòng)信息。

這個(gè)方法的缺點(diǎn)很明顯：計(jì)算量大、耗時(shí)長(zhǎng)，也就是效率低。

為此，研究人員設(shè)計(jì)了三個(gè)可訓(xùn)練模塊，分別為流完成（flow completion）、特征傳播（feature propagation）和內(nèi)容幻想（content hallucination），提出了一個(gè)流引導(dǎo)（flow-guided）的端到端視頻修復(fù)框架：

E2FGVI。

這三個(gè)模塊與之前基于光流的方法的三個(gè)階段相對(duì)應(yīng)，不過(guò)可以進(jìn)行聯(lián)合優(yōu)化，從而實(shí)現(xiàn)更高效的修復(fù)過(guò)程。

具體來(lái)說(shuō)，對(duì)于流完成模塊，該方法直接在mask viedo中一步完成操作，而不是像此前方法采用多個(gè)復(fù)雜的步驟。

對(duì)于特征傳播模塊，與此前的像素級(jí)傳播相比，該方法中的流引導(dǎo)傳播過(guò)程在特征空間中借助可變形卷積進(jìn)行。

通過(guò)更多可學(xué)習(xí)的采樣偏移和特征級(jí)操作，傳播模塊釋放了此前不能準(zhǔn)確進(jìn)行流估計(jì)的壓力。

對(duì)于內(nèi)容幻想模塊，研究人員則提出了一種時(shí)間焦點(diǎn)Transformer來(lái)有效地建模空間和時(shí)間維度上的長(zhǎng)程依賴(lài)關(guān)系。

同時(shí)該模塊還考慮了局部和非局部時(shí)間鄰域，從而獲得更具時(shí)間相關(guān)性的修復(fù)結(jié)果。

作者：希望成為新基線

定量實(shí)驗(yàn)：

研究人員在數(shù)據(jù)集YouTube VOS和DAVIS上進(jìn)行了定量實(shí)驗(yàn)，將他們的方法與之前的視頻修復(fù)方法進(jìn)行了比較。

如下表所示，E2FGVI在全部四個(gè)量化指標(biāo)上都遠(yuǎn)遠(yuǎn)超過(guò)了這些SOTA算法，能夠生成變形更少（PSNR和SSIM）、視覺(jué)上更合理（VFID）和時(shí)空一致性更佳（Ewarp）的修復(fù)視頻，驗(yàn)證了該方法的優(yōu)越性。

此外，E2FGVI也具有最低的FLOPs值（計(jì)算復(fù)雜度），盡管訓(xùn)練是在432 × 240分辨率的視頻上進(jìn)行，它的HQ版本做到了支持任意分辨率。

定性實(shí)驗(yàn)：

研究人員首先選擇了三種最有代表性的方法，包括CAP、FGVC（基于光流法）和Fuseformer（入選ICCV 2021），進(jìn)行對(duì)象移除（下圖前三行）和缺失補(bǔ)全（下圖后兩行）的效果比較。

可以發(fā)現(xiàn)，前三種方法很難在遮擋區(qū)域恢復(fù)出合理的細(xì)節(jié)、擦除人物也會(huì)造成模糊，但E2FGVI可以生成相對(duì)真實(shí)的紋理和結(jié)構(gòu)信息。

此外，它們還選用了5種方法進(jìn)行了用戶(hù)研究，結(jié)果大部分人都對(duì)E2FGVI修復(fù)后的效果更滿(mǎn)意。

綜上，研究人員也表示，希望他們提出的方法可以成為視頻修復(fù)領(lǐng)域新的強(qiáng)大基線。

作者介紹

E2FGVI由南開(kāi)大學(xué)和海思合作完成。

一作Li Zhen為南開(kāi)大學(xué)博士生，共同一作Lu ChengZe也來(lái)自南開(kāi)。

通訊作者為南開(kāi)大學(xué)計(jì)算機(jī)學(xué)院教授程明明，主要研究方向是計(jì)算機(jī)視覺(jué)和圖形學(xué)。

目前，E2FGVI的代碼已經(jīng)開(kāi)源，作者也提供了Colab實(shí)現(xiàn)，未來(lái)還將在Hugging Face給出demo。

論文地址： https://arxiv.org/abs/2204.02663

GitHub主頁(yè)： https://github.com/MCG-NKU/E2FGVI

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

計(jì)算機(jī)視覺(jué)

計(jì)算機(jī)視覺(jué)

+關(guān)注

關(guān)注
9

文章
1706

瀏覽量
46613
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1223

瀏覽量
25317