如何將照片中閉著的眼睛“打開”,一直是計算機(jī)視覺和圖形學(xué)中的難題。Facebook提出了一種Exemplar GANs(ExGANs)的方法,在條件GAN的基礎(chǔ)上加入?yún)⒖?a target="_blank">信息,能合成逼真且自然的眼睛,肉眼幾乎無法分辨。
現(xiàn)在有很多方法可以美化照片,讓你看起來更好看,簡單的,比如消除紅眼或者鏡頭眩光,復(fù)雜的,甚至可能讓你看起來變了一個人。
但是,到目前為止,還沒有一個很好的辦法處理照相時眨眼的問題:當(dāng)拍照的那一瞬間眼睛正好閉上了,那么……就只能重新拍一張。
不過,現(xiàn)在好了,F(xiàn)acebook的一項(xiàng)最新研究可以很好地解決這個問題,而且效果驚艷。
Facebook的新技術(shù)讓你完美睜眼:第一列和第二列是ground truth(分別對應(yīng)正常和閉眼的情況);第三列是目前商用軟件中效果最好的Adobe Photoshop Elements的結(jié)果;第四列是Facebook這次新提出的技術(shù)ExGAN。
深度學(xué)習(xí)讓計算機(jī)“腦補(bǔ)”,風(fēng)格轉(zhuǎn)移合成逼真細(xì)節(jié)
Facebook在他們發(fā)表于CVPR 2018的論文“Eye In-Painting with Exemplar Generative Adversarial Networks”中描述了這項(xiàng)工作。
這里提到的“In-Painting”,也即圖像補(bǔ)全,最初是一個傳統(tǒng)圖形學(xué)的問題,在一幅圖像上挖一個洞,看如何利用其他的信息將這個洞補(bǔ)全,并且讓人眼無法辨別。
這個問題對人類來說似乎很容易,只要稍微想象一下,大家很容易就能腦補(bǔ)出洞里應(yīng)該有什么。但是,這個任務(wù)對于計算機(jī)而言卻十分困難,因?yàn)檫@個問題沒有唯一確定的解,如何利用其他的信息,如何判斷補(bǔ)全的結(jié)果是否足夠逼真,都是要考慮的問題。
近來,深度學(xué)習(xí)的發(fā)展,得益于神經(jīng)網(wǎng)絡(luò)對圖像中高層特征(high-level feature)的提取能力,研究人員可以將大數(shù)據(jù)和high-level feature組合起來,使這個十分困難的問題得到了比較好的解決。
例如,2017年,來自伯克利和Adobe等機(jī)構(gòu)的研究人員提出了一種混合優(yōu)化方法(joint optimization),利用編碼器 - 解碼器CNN的結(jié)構(gòu)化預(yù)測和神經(jīng)補(bǔ)丁的力量,成功合成了實(shí)際的高頻細(xì)節(jié)。
對于給定的一張帶有孔洞(256×256)的圖像(512×512),算法可以合成出更清晰連貫的孔洞內(nèi)容(d)。上圖展示了混合優(yōu)化方法與用Context Encoders(b)、PatchMatch(c)這兩種方法產(chǎn)生的結(jié)果的比較。
類似于風(fēng)格轉(zhuǎn)移(style transfer),他們的方法將編碼器-解碼器預(yù)測作為全局內(nèi)容約束,并且將孔洞和已知區(qū)域之間的局部神經(jīng)補(bǔ)丁相似性作為風(fēng)格(style)約束。
補(bǔ)全眼睛,還是個大問題
但是,上述方法還是存在種種局限,其中之一就是對眼睛的補(bǔ)完。
這并不是說眼睛——“人類心靈的窗口”很難模擬。實(shí)際上,目前的深度網(wǎng)絡(luò)已經(jīng)能在語義上產(chǎn)生逼真的、令人信服的結(jié)果。
但是,大多數(shù)方法并不能保留照片中人物的“身份”(identity)。DNN可以學(xué)習(xí)“打開”一雙閉合的眼睛,但是模型本身并不能保證新的眼睛對應(yīng)于這個人的特定眼睛結(jié)構(gòu)。
DNN只會插入一雙與訓(xùn)練集中相似的臉相對應(yīng)的眼睛。這時候,如果一個人有一些明顯的特征,比如眼睛的形狀比較特別,就不會在生成的部分中得到體現(xiàn)。
Facebook提出ExGAN,比cGAN更具表現(xiàn)力
Facebook作為全球最大的社交網(wǎng)絡(luò),每天乃至每一分鐘都有大量用戶將自己的照片上傳,而其中就有很多是閉眼的照片。
坐擁可能是全球最大的閉眼照片數(shù)據(jù)集,F(xiàn)acebook的研究人員自然會想,能不能在這個基礎(chǔ)上做些什么。
于是,有鑒于生成對抗網(wǎng)絡(luò)(GAN)在生成逼真圖像中的應(yīng)用,F(xiàn)acebook的Brian Dolhansky和Cristian Canton Ferrer提出了一個Exemplar GANs (ExGANs)。
ExGAN是條件GAN(cGAN)的擴(kuò)展,利用示例信息,生成高質(zhì)量、個性化的圖像補(bǔ)全。
與以前的條件GAN不同,在判別器網(wǎng)絡(luò)里插入了額外的參考信息(參考圖片或者感知代碼),因此ExGAN有更強(qiáng)的表現(xiàn)力。
ExGANs的總體訓(xùn)練流程可以概括為:
從輸入圖像中標(biāo)出眼睛;
以參考圖像(reference image)或感知代碼(perceptual code)為指導(dǎo),對圖像進(jìn)行補(bǔ)全;
通過輸入圖像和補(bǔ)全圖像之間的內(nèi)容/重構(gòu)損失,計算生成器參數(shù)的梯度;
用補(bǔ)全圖像、另一個ground truth圖像和參考圖像或感知代碼,計算鑒別器參數(shù)的梯度;
通過生成器反向傳播鑒別器的誤差。還有可選的一步,用感知損失對生成器的參數(shù)進(jìn)行更新。其中,函數(shù)C(I)是身份函數(shù)。
ExGAN,讓閉眼照片完美“開眼”
ExGAN從樣例中,不僅了解了這個人的眼睛看的是什么,還了解了這個人的眼睛的結(jié)構(gòu)、瞳孔的顏色,等等。最終補(bǔ)全的結(jié)果非常逼真而且自然。
在測試中,人們誤把假眼睛睜開的照片當(dāng)成真實(shí)的,或者有超過一半的時間他們不能確定哪個是哪個。看了上面的實(shí)例,除非我知道照片肯定是被篡改過的,不然我在信息流中滾動瀏覽時我可能根本就不會注意到。
在下圖中,左邊第一列是ground truth,第二列是其他方法,第三列和第四列都是ExGANs的結(jié)果。其中,第三列是使用了參考圖像的結(jié)果,第四列是使用了感知代碼的結(jié)果。(圖片可以點(diǎn)擊放大查看。)
在某些情況下,ExGANs仍然會失敗,比如當(dāng)一個人的眼睛被一縷頭發(fā)遮住了一部分,或者有時不能正確地著色,就會產(chǎn)生一些奇怪的人工痕跡。但這些都是可以解決的問題。
研究者表示,Exemplar GANs是一個通用的框架,因此可以拓展到其他計算機(jī)視覺任務(wù)乃至其他領(lǐng)域的問題上。
在這次的研究中,基于參考圖片和基于感知代碼的兩種方法是分開的,因?yàn)樗麄兿胝故具@兩種方法都是可行的。未來,他們會研究將這兩種方法結(jié)合在一起,比如在生成器里使用參考圖片,在判別器里使用感知代碼,從而生成更加逼真可信的眼睛補(bǔ)全。
不論如何,我們的照片將變得更加自然和漂亮,而鑒別“換臉”或者假視頻的任務(wù),也將更具挑戰(zhàn)。
-
Facebook
+關(guān)注
關(guān)注
3文章
1432瀏覽量
55112 -
計算機(jī)視覺
+關(guān)注
關(guān)注
8文章
1701瀏覽量
46182 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5523瀏覽量
121709
原文標(biāo)題:【CVPR 2018】照片閉眼也無妨,F(xiàn)acebook黑科技完美補(bǔ)全大眼睛
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
一種簡單的逆變器輸出直流分量消除方法
一種基于FPGA的UART實(shí)現(xiàn)方法設(shè)計
Facebook背后的軟件揭秘
求一種新的雙T型選頻網(wǎng)絡(luò)電路的設(shè)計方法
一種實(shí)用的混沌保密編碼方法
一種特殊陣列實(shí)現(xiàn)DOA估計的方法
開關(guān)電源控制芯片中減小EMI的一種電路實(shí)現(xiàn)方法

一種融合在線膚色模型的眼睛狀態(tài)識別算法
從電路的角度出發(fā),提出了一種新的SOC跨時鐘域同步電路設(shè)計的方法

OpenAI提出了一種回報設(shè)置方法RND
Facebook提出了一種在虛擬現(xiàn)實(shí)環(huán)境中表征真實(shí)世界對象的解決方案

英偉達(dá)提出了一種稱為安全力場的方法避免車輛碰撞
華裔女博士提出:Facebook提出用于超參數(shù)調(diào)整的自我監(jiān)督學(xué)習(xí)框架

評論