眾所周知:視頻是可以P的。
這不,在CVPR 2022收錄的論文中,就出現(xiàn)了這么一個(gè)P圖神器,它可以分分鐘給你上演各種人像消失大法,不留任何痕跡。
去水印、填補(bǔ)缺失更是不在話(huà)下,并且各種分辨率的視頻都能hold住。
正如你所見(jiàn),這個(gè)模型如此絲滑的表現(xiàn)讓它在兩個(gè)基準(zhǔn)數(shù)據(jù)集上都實(shí)現(xiàn)了SOTA性能。
△與SOTA方法的對(duì)比
同時(shí)它的推理時(shí)間和計(jì)算復(fù)雜表現(xiàn)也很搶眼:
前者比此前的方法快了近15倍,可以在Titan XP GPU上以每幀0.12秒的速度處理432 × 240的視頻;后者則是在所有比較的SOTA方法中實(shí)現(xiàn)了最低的FLOPs分?jǐn)?shù)。
如此神器,什么來(lái)頭?
改善光流法
目前很多視頻修復(fù)算法利用的都是光流法(Optical flow)。
也就是利用圖像序列中像素在時(shí)間域上的變化以及相鄰幀之間的相關(guān)性,找到上一幀跟當(dāng)前幀之間存在的對(duì)應(yīng)關(guān)系,從而計(jì)算出相鄰幀之間物體的運(yùn)動(dòng)信息。
這個(gè)方法的缺點(diǎn)很明顯:計(jì)算量大、耗時(shí)長(zhǎng),也就是效率低。
為此,研究人員設(shè)計(jì)了三個(gè)可訓(xùn)練模塊,分別為流完成(flow completion)、特征傳播(feature propagation)和內(nèi)容幻想(content hallucination),提出了一個(gè)流引導(dǎo)(flow-guided)的端到端視頻修復(fù)框架:
E2FGVI。
這三個(gè)模塊與之前基于光流的方法的三個(gè)階段相對(duì)應(yīng),不過(guò)可以進(jìn)行聯(lián)合優(yōu)化,從而實(shí)現(xiàn)更高效的修復(fù)過(guò)程。
具體來(lái)說(shuō),對(duì)于流完成模塊,該方法直接在mask viedo中一步完成操作,而不是像此前方法采用多個(gè)復(fù)雜的步驟。
對(duì)于特征傳播模塊,與此前的像素級(jí)傳播相比,該方法中的流引導(dǎo)傳播過(guò)程在特征空間中借助可變形卷積進(jìn)行。
通過(guò)更多可學(xué)習(xí)的采樣偏移和特征級(jí)操作,傳播模塊釋放了此前不能準(zhǔn)確進(jìn)行流估計(jì)的壓力。
對(duì)于內(nèi)容幻想模塊,研究人員則提出了一種時(shí)間焦點(diǎn)Transformer來(lái)有效地建模空間和時(shí)間維度上的長(zhǎng)程依賴(lài)關(guān)系。
同時(shí)該模塊還考慮了局部和非局部時(shí)間鄰域,從而獲得更具時(shí)間相關(guān)性的修復(fù)結(jié)果。
作者:希望成為新基線
定量實(shí)驗(yàn):
研究人員在數(shù)據(jù)集YouTube VOS和DAVIS上進(jìn)行了定量實(shí)驗(yàn),將他們的方法與之前的視頻修復(fù)方法進(jìn)行了比較。
如下表所示,E2FGVI在全部四個(gè)量化指標(biāo)上都遠(yuǎn)遠(yuǎn)超過(guò)了這些SOTA算法,能夠生成變形更少(PSNR和SSIM)、視覺(jué)上更合理(VFID)和時(shí)空一致性更佳(Ewarp)的修復(fù)視頻,驗(yàn)證了該方法的優(yōu)越性。
此外,E2FGVI也具有最低的FLOPs值(計(jì)算復(fù)雜度),盡管訓(xùn)練是在432 × 240分辨率的視頻上進(jìn)行,它的HQ版本做到了支持任意分辨率。
定性實(shí)驗(yàn):
研究人員首先選擇了三種最有代表性的方法,包括CAP、FGVC(基于光流法)和Fuseformer(入選ICCV 2021),進(jìn)行對(duì)象移除(下圖前三行)和缺失補(bǔ)全(下圖后兩行)的效果比較。
可以發(fā)現(xiàn),前三種方法很難在遮擋區(qū)域恢復(fù)出合理的細(xì)節(jié)、擦除人物也會(huì)造成模糊,但E2FGVI可以生成相對(duì)真實(shí)的紋理和結(jié)構(gòu)信息。
此外,它們還選用了5種方法進(jìn)行了用戶(hù)研究,結(jié)果大部分人都對(duì)E2FGVI修復(fù)后的效果更滿(mǎn)意。
綜上,研究人員也表示,希望他們提出的方法可以成為視頻修復(fù)領(lǐng)域新的強(qiáng)大基線。
作者介紹
E2FGVI由南開(kāi)大學(xué)和海思合作完成。
一作Li Zhen為南開(kāi)大學(xué)博士生,共同一作Lu ChengZe也來(lái)自南開(kāi)。
通訊作者為南開(kāi)大學(xué)計(jì)算機(jī)學(xué)院教授程明明,主要研究方向是計(jì)算機(jī)視覺(jué)和圖形學(xué)。
目前,E2FGVI的代碼已經(jīng)開(kāi)源,作者也提供了Colab實(shí)現(xiàn),未來(lái)還將在Hugging Face給出demo。
論文地址: https://arxiv.org/abs/2204.02663
GitHub主頁(yè): https://github.com/MCG-NKU/E2FGVI
審核編輯 :李倩
-
計(jì)算機(jī)視覺(jué)
+關(guān)注
關(guān)注
9文章
1706瀏覽量
46613 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25317
原文標(biāo)題:CVPR 2022 | 視頻P圖新SOTA:推理速度快近15倍,任意分辨率均可上演人像消失大法
文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
DeepSeek最新論文:訓(xùn)練速度提升9倍,推理速度快11倍!

RK3588核心板在邊緣AI計(jì)算中的顛覆性?xún)?yōu)勢(shì)與場(chǎng)景落地
YOLOv5類(lèi)中rgb888p_size這個(gè)參數(shù)要與模型推理和訓(xùn)練的尺寸一致嗎?一致會(huì)達(dá)到更好的效果?
使用修改后的基準(zhǔn)C++工具推斷灰度圖像時(shí)的推理速度慢怎么解決?
k230如何將yolo分類(lèi)視頻流推理后的視頻結(jié)果保存到本地?
中國(guó)電提出大模型推理加速新范式Falcon

在ARM上實(shí)現(xiàn)模擬視頻的實(shí)時(shí)解碼,模擬相機(jī)的速度為1080p 30fps,TVP5150能達(dá)到這個(gè)速度嗎?
谷歌正式發(fā)布Gemini 2.0 性能提升近兩倍
FPGA和ASIC在大模型推理加速中的應(yīng)用

6G測(cè)試速度達(dá)938Gbps,比5G速度快5000倍
內(nèi)存儲(chǔ)器的特點(diǎn)是速度快成本低容量小對(duì)嗎
迅為【AI深度學(xué)習(xí)推理加速器】RKNPU2 從入門(mén)到實(shí)踐視頻教程3568開(kāi)發(fā)板
超高速直線模組究竟有多快?飛創(chuàng)直線模組最快速度是多少?

LLM大模型推理加速的關(guān)鍵技術(shù)
Anthropic 發(fā)布Claude 3.5 Sonnet模型運(yùn)行速度是Claude 3 Opus的兩倍

評(píng)論