在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

深入研究文獻(xiàn)中關(guān)于圖像修復(fù)的第一個(gè)生成模型

新機(jī)器視覺 ? 來源:AI公園 ? 作者:AI公園 ? 2021-03-20 09:17 ? 次閱讀

導(dǎo)讀

本文給出了圖像恢復(fù)的一般性框架,編解碼器 + GAN,后面的圖像復(fù)原基本都是這個(gè)框架。

本文會(huì)介紹圖像修復(fù)的目的,它的應(yīng)用,等等。然后,我們將深入研究文獻(xiàn)中關(guān)于圖像修復(fù)的第一個(gè)生成模型(即第一個(gè)基于GAN的修復(fù)算法,上下文編碼器)。

目標(biāo)

很簡(jiǎn)單的!我們想要填補(bǔ)圖像中缺失的部分。如圖1所示。

圖1,中心缺失的圖像(左),復(fù)原后的圖像(右)。

應(yīng)用

移除圖像中不需要的部分(即目標(biāo)移除)

修復(fù)損壞的圖像(可以擴(kuò)展到修復(fù)電影)

很多其他應(yīng)用!

術(shù)語

給出一個(gè)有一些缺失區(qū)域的圖像,我們定義

缺失像素/生成像素/空洞像素:待填充區(qū)域的像素。

有效像素/ground truth像素:和缺失像素含義相反。需要保留這些像素,這些像素可以幫助我們填補(bǔ)缺失的區(qū)域。

傳統(tǒng)方法

給出一個(gè)有一些缺失區(qū)域的圖像,最典型的傳統(tǒng)方法填充缺失區(qū)域是復(fù)制粘貼。

主要思想是從圖像本身或一個(gè)包含數(shù)百萬張圖像的大數(shù)據(jù)集中尋找最相似的圖像補(bǔ)丁,然后將它們粘貼到缺失的區(qū)域。

然而,搜索算法可能是耗時(shí)的,它涉及到手工設(shè)計(jì)距離的度量方法。在通用化和效率方面仍有改進(jìn)的空間。

數(shù)據(jù)驅(qū)動(dòng)的基于深度學(xué)習(xí)的方法

由于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNNs)在圖像處理方面的成功,很多人開始將CNNs應(yīng)用到自己的任務(wù)中。基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法的強(qiáng)大之處在于,如果我們有足夠的訓(xùn)練數(shù)據(jù),我們就可以解決我們的問題。

如上所述,圖像修復(fù)就是將圖像中缺失的部分補(bǔ)上。這意味著我們想要生成一些不存在或沒有答案的東西。因此,所有基于深度學(xué)習(xí)的修復(fù)算法都使用生成對(duì)抗網(wǎng)絡(luò)(GANs)來產(chǎn)生視覺上吸引人的結(jié)果。為什么視覺上吸引人呢?由于沒有模型來回答生成的問題,人們更喜歡有良好視覺質(zhì)量的結(jié)果,這是相當(dāng)主觀的!

對(duì)于那些可能不知道GANs的讀者,我推薦你先去了解一下。這里以圖像修復(fù)為例,簡(jiǎn)單地說,典型的GAN由一個(gè)生成器和一個(gè)鑒別器組成。生成器負(fù)責(zé)填補(bǔ)圖像中缺失的部分,鑒別器負(fù)責(zé)區(qū)分已填充圖像和真實(shí)圖像。請(qǐng)注意,真實(shí)的圖像是處于良好狀態(tài)的圖像(即沒有缺失的部分)。我們將隨機(jī)地將填充的圖像或真實(shí)的圖像輸入識(shí)別器來欺騙它。最終,如果鑒別器不能判斷圖像是被生成器填充的還是真實(shí)的圖像,生成器就能以良好的視覺質(zhì)量填充缺失的部分!

第一個(gè)基于GAN的修復(fù)方法:上下文編碼器

在對(duì)image inpainting做了簡(jiǎn)單的介紹之后,我希望你至少知道什么是image inpainting, GANs(一種生成模型)是inpainting領(lǐng)域常用的一種。現(xiàn)在,我們將深入研究本系列的第一篇論文。

Intention

作者想訓(xùn)練一個(gè)CNN來預(yù)測(cè)圖像中缺失的像素。眾所周知,典型的CNNs(例如LeNet手寫數(shù)字識(shí)別和AlexNet圖像分類)包含許多的卷積層來提取特征,從簡(jiǎn)單的結(jié)構(gòu)特征到高級(jí)的語義特征(即早期層簡(jiǎn)單的特征,比如邊緣,角點(diǎn),到后面的層的更復(fù)雜的特征模式)。對(duì)于更復(fù)雜的功能模式,作者想利用學(xué)到的高層語義特征(也稱為隱藏特征)來幫助填充缺失的區(qū)域。

此外,為修復(fù)而學(xué)習(xí)的特征需要對(duì)圖像進(jìn)行更深層次的語義理解。因此,學(xué)習(xí)到的特征對(duì)于其他任務(wù)也很有用,比如分類、檢測(cè)和語義分割。

背景

在此,我想為讀者提供一些背景信息,

Autoencoders:這是一種通常用于重建任務(wù)的CNN結(jié)構(gòu)。由于其形狀,也有人稱之為沙漏結(jié)構(gòu)模型。對(duì)于這個(gè)結(jié)構(gòu),輸出大小與輸入大小相同,我們實(shí)際上有兩個(gè)部分,一個(gè)是編碼器,另一個(gè)是解碼器,如下圖2所示。編碼器部分用于特征編碼,針對(duì)輸入得到緊湊潛在的特征表示,而解碼器部分則對(duì)潛在特征表示進(jìn)行解碼。我們通常把中間層稱為低維的“瓶頸”層,或者簡(jiǎn)單地稱之為“瓶頸”,因此整個(gè)結(jié)構(gòu)看起來就像一個(gè)沙漏。讓我們想象一下,我們將一幅完好無損的圖像輸入到這個(gè)自動(dòng)編碼器中。在這種情況下,我們期望輸出應(yīng)該與輸入完全相同。這意味著一個(gè)完美的重建。如果可能的話,“瓶頸”是輸入的一個(gè)完美的緊湊潛在特征表示。更具體地說,我們可以使用更少的數(shù)字來表示輸入(即更有效,它與降維技術(shù)有關(guān))。因此,這個(gè)“瓶頸”包含了幾乎所有的輸入信息(可能包括高級(jí)語義特征),我們可以使用它來重構(gòu)輸入。

圖2,自編碼器的結(jié)構(gòu)圖解

上下文編碼器進(jìn)行圖像生成

圖3,提出的上下文編碼器

圖3顯示了提出的上下文編碼器的概要。首先,輸入的是mask圖像(即有中心缺失的圖像)。輸入編碼器以獲得編碼后的特征。然后,本文的主要貢獻(xiàn)是在編碼特征和解碼特征之間放置通道全連接層,以獲得更好的語義特征(即“瓶頸”)。最后,解碼器利用“瓶頸”特征重建缺失的部分。讓我們來看看他們的網(wǎng)絡(luò)內(nèi)部。

圖4,提出的網(wǎng)絡(luò)的結(jié)構(gòu)細(xì)節(jié)

編碼器

編碼器使用AlexNet結(jié)構(gòu),他們用隨機(jī)初始化權(quán)值從頭開始訓(xùn)練他們的網(wǎng)絡(luò)。

與原始的AlexNet架構(gòu)和圖2所示的自動(dòng)編碼器相比,主要的區(qū)別是中間的通道全連接層。如果網(wǎng)絡(luò)中只有卷積層,則無法利用特征圖上距離很遠(yuǎn)的空間位置的特征。為了解決這個(gè)問題,我們可以使用全連接層,即當(dāng)前層的每個(gè)神經(jīng)元的值依賴于上一層的所有神經(jīng)元的值。然而,全連接層會(huì)引入許多參數(shù),8192x8192=67.1M,這甚至在GPU上也很難訓(xùn)練,作者提出了通道全連接層來解決這個(gè)問題。

通道全連接層

實(shí)際上,通道全連接層非常簡(jiǎn)單。我們只是完全獨(dú)立地連接每個(gè)通道而不是所有的通道。例如,我們有m個(gè)大小為nxn的特征映射。如果使用標(biāo)準(zhǔn)的全連接層,我們會(huì)有m2n?個(gè)參數(shù),對(duì)于通道級(jí)的全連接層,我們只有mn?個(gè)參數(shù)。因此,我們可以在距離很遠(yuǎn)的空間位置上捕獲特征,而不需要添加那么多額外的參數(shù)。

解碼器

對(duì)于解碼器來說,這只是編碼過程的反向。我們可以使用一系列的轉(zhuǎn)置卷積來獲得期望大小的重建圖像。

損失函數(shù)

本文使用的損失函數(shù)由兩項(xiàng)組成。第一項(xiàng)是重建損失(L2損失),它側(cè)重于像素級(jí)的重建精度(即PSNR方向的損失),但總是會(huì)導(dǎo)致圖像模糊。第二個(gè)是對(duì)抗損失,它通常用于GANs。它鼓勵(lì)真實(shí)圖像和填充圖像之間數(shù)據(jù)分布更接近。

對(duì)于那些對(duì)損失函數(shù)感興趣的讀者,我強(qiáng)烈推薦你們閱讀這篇論文中的方程。在這里,我只是口頭描述每個(gè)損失項(xiàng)。

f6324406-88ee-11eb-8b86-12bb97331649.png

重建損失(L2損失),M表示缺失的區(qū)域(1表示缺失區(qū)域,0表示有效像素),F(xiàn)是生成器

L2損失:計(jì)算生成的像素與對(duì)應(yīng)ground truth像素之間的L2距離(歐幾里得距離)。只考慮圖4中所示的缺失區(qū)域。

f662eec6-88ee-11eb-8b86-12bb97331649.png

對(duì)抗損失,D是鑒別器。我們希望訓(xùn)練出一種能夠區(qū)分填充圖像和真實(shí)圖像的鑒別器

對(duì)抗損失:對(duì)抗鑒別器的結(jié)構(gòu)如圖4所示。鑒別器的輸出是一個(gè)二進(jìn)制值0或1。如果輸入是真實(shí)圖像,則為1,如果輸入是填充圖像,則為0。

f6f51800-88ee-11eb-8b86-12bb97331649.png

聯(lián)合損失,Lambda_rec為0.999,Lambda_adv為0.001

使用隨機(jī)梯度下降(SGD),Adam優(yōu)化器交替訓(xùn)練生成器和鑒別器。

實(shí)驗(yàn)結(jié)果

評(píng)估使用了兩個(gè)數(shù)據(jù)集,即Paris Street View和ImageNet。

作者首先展示了修復(fù)結(jié)果,然后他們還表明,作為預(yù)訓(xùn)練步驟,學(xué)習(xí)到的特征可以遷移到其他任務(wù)中。

語義修復(fù)

圖5,修復(fù)結(jié)果,前3行是ImageNet數(shù)據(jù)集的結(jié)果,下面2行是來自Paris StreetView數(shù)據(jù)集的結(jié)果

圖5顯示了使用建議的上下文編碼器的修復(fù)結(jié)果。

f95796b8-88ee-11eb-8b86-12bb97331649.png

表1,Paris StreetView數(shù)據(jù)集的像素重建損失

作者與傳統(tǒng)的最近鄰修復(fù)算法進(jìn)行了比較。顯然,該方法優(yōu)于最近鄰修復(fù)方法。

圖6,使用不同方法的修復(fù)結(jié)果

圖6顯示了使用各種方法的修復(fù)結(jié)果。我們可以看到L2損失傾向于給出模糊的圖像(第二列)。L2 +對(duì)抗性的損失給更清晰的填充圖像。對(duì)于NN-Inpainting,他們只是復(fù)制和粘貼最相似的圖像補(bǔ)丁到缺失的區(qū)域。

特征學(xué)習(xí)

圖7,最近鄰的上下文

為了顯示他們學(xué)習(xí)到的特征的有用性,作者嘗試編碼不同的圖像patch,并根據(jù)編碼的特征得到最相似的patch。在圖7中。作者將其與傳統(tǒng)的HOG和典型的AlexNet進(jìn)行了比較。它們實(shí)現(xiàn)了與AlexNet類似的表現(xiàn),但AlexNet是在一百萬張標(biāo)有數(shù)據(jù)集的圖像上預(yù)訓(xùn)練的。

f9f5acd6-88ee-11eb-8b86-12bb97331649.png

表2,分類、檢測(cè)和語義分割的定量比較。

如表2所示,在ImageNet上預(yù)訓(xùn)練過的模型具有最好的性能,但需要昂貴的標(biāo)簽。在該方法中,上下文是用于訓(xùn)練模型的監(jiān)督。這就是他們所謂的通過修復(fù)圖像來學(xué)習(xí)特征。很明顯,它們學(xué)習(xí)到的特征表示與其他借助輔助監(jiān)督訓(xùn)練的模型相當(dāng),甚至更好。

總結(jié)

所提出的上下文編碼器訓(xùn)練可以在上下文的條件下生成圖像。在語義修復(fù)方面達(dá)到了最先進(jìn)的性能。

學(xué)習(xí)到的特征表示也有助于其他任務(wù),如分類,檢測(cè)和語義分割。

要點(diǎn)

我想在這里強(qiáng)調(diào)一些要點(diǎn)。

對(duì)于圖像修復(fù),我們必須使用來自有效像素的“提示”來幫助填充缺失的像素。“上下文”一詞是指對(duì)整個(gè)圖像本身的理解。

本文的主要貢獻(xiàn)是通道全連接層。其實(shí),理解這一層并不難。對(duì)我來說,它是Non-Local Neural Networks或Self-Attention的早期版本/簡(jiǎn)化版本。主要的一點(diǎn)是,前一層的所有特征位置對(duì)當(dāng)前層的每個(gè)特征位置都有貢獻(xiàn)。從這個(gè)角度來看,我們對(duì)整個(gè)圖像的語義理解會(huì)更加深入。這個(gè)概念在后面的文章中被廣泛采用!

所有后來的修復(fù)論文都遵循了GAN-based結(jié)構(gòu)(即編碼器-解碼器結(jié)構(gòu))。人們的目標(biāo)是具有良好視覺質(zhì)量的充滿圖像。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3780

    瀏覽量

    137243
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41048
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3495

    瀏覽量

    50047

原文標(biāo)題:用生成模型來做圖像恢復(fù)的介紹和回顧:上下文編碼器

文章出處:【微信號(hào):vision263com,微信公眾號(hào):新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    利用NVIDIA 3D引導(dǎo)生成式AI Blueprint控制圖像生成

    AI 賦能的圖像生成技術(shù)突飛猛進(jìn),從早期模型會(huì)生成手指過多的人類圖像,到現(xiàn)在能創(chuàng)造出令人驚嘆的逼真視覺效果。即使取得了如此飛躍,仍然存在
    的頭像 發(fā)表于 06-05 09:24 ?222次閱讀

    Gemini API集成Google圖像生成模型Imagen 3

    開發(fā)者現(xiàn)在可以通過 Gemini API 訪問 Google 最先進(jìn)的圖像生成模型 Imagen 3。該模型最初僅對(duì)付費(fèi)用戶開放,不久后也將面向免費(fèi)用戶推出。
    的頭像 發(fā)表于 05-14 16:53 ?311次閱讀

    直流電機(jī)控制方法的Matlab仿真研究

    針對(duì)無刷直流電機(jī)的控制方法進(jìn)行了深入研究 。根據(jù)無刷直流電機(jī)實(shí)際物理模型建立相應(yīng)的數(shù)學(xué)模型,電機(jī)使用雙閉環(huán)進(jìn)行控制 。根據(jù)電機(jī)的實(shí)際工作特點(diǎn),使用模糊自適應(yīng) PID 算法替代常規(guī) PID 算法建立
    發(fā)表于 03-27 12:15

    文詳解視覺語言模型

    視覺語言模型(VLM)是種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1543次閱讀
    <b class='flag-5'>一</b>文詳解視覺語言<b class='flag-5'>模型</b>

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+第一章初體驗(yàn)

    《基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化》試讀報(bào)告 ——第一章:了解大模型與RAG 近年來,隨著人工智能技術(shù)的快速發(fā)展,大模型生成式AI技術(shù)逐
    發(fā)表于 02-07 10:42

    電容器深入研究:電路保護(hù)、濾波和能量存儲(chǔ)

    校參加了些課程,并獲得了關(guān)于何時(shí)使用電容器以及它們?nèi)绾喂ぷ鞯恼鎸?shí)示例。從電路保護(hù)到濾波,從能量存儲(chǔ)到傳感,我正在深入研究簡(jiǎn)單而復(fù)雜的電容器世界。 這些東西是如何運(yùn)作的? 事實(shí)上,
    的頭像 發(fā)表于 01-25 15:13 ?493次閱讀
    電容器<b class='flag-5'>深入研究</b>:電路保護(hù)、濾波和能量存儲(chǔ)

    借助谷歌Gemini和Imagen模型生成高質(zhì)量圖像

    以獲得卓越的視覺效果。這個(gè)過程并不止于此;圖像生成,Imagen 2 可以進(jìn)步優(yōu)化以滿足特定需求,從而創(chuàng)建
    的頭像 發(fā)表于 01-03 10:38 ?819次閱讀
    借助谷歌Gemini和Imagen<b class='flag-5'>模型</b><b class='flag-5'>生成</b>高質(zhì)量<b class='flag-5'>圖像</b>

    ADS131A04在復(fù)位后以READY字進(jìn)行響應(yīng),在第一個(gè)接收到的響應(yīng)不正確,為什么?

    幀,則在第一個(gè)接收到的響應(yīng)不正確,而后續(xù)響應(yīng)是正確的。為什么復(fù)位后第一個(gè)的 READY 響應(yīng)不正確?
    發(fā)表于 11-25 08:11

    LMK1C1104第一個(gè)cycle在CLKOUT丟失,為什么?

    LMK1C1104: CLKIN的第一個(gè)cycle在CLKOUT丟失,詳情請(qǐng)參照關(guān)聯(lián)問題
    發(fā)表于 11-11 07:12

    AI大模型的最新研究進(jìn)展

    AI大模型的最新研究進(jìn)展體現(xiàn)在多個(gè)方面,以下是對(duì)其最新進(jìn)展的介紹: 、技術(shù)創(chuàng)新與突破 生成式AI技術(shù)的爆發(fā) : 生成式AI技術(shù)正在迅速發(fā)展
    的頭像 發(fā)表于 10-23 15:19 ?1275次閱讀

    AI大模型圖像識(shí)別的優(yōu)勢(shì)

    AI大模型圖像識(shí)別展現(xiàn)出了顯著的優(yōu)勢(shì),這些優(yōu)勢(shì)主要源于其強(qiáng)大的計(jì)算能力、深度學(xué)習(xí)算法以及大規(guī)模的數(shù)據(jù)處理能力。以下是對(duì)AI大模型圖像識(shí)
    的頭像 發(fā)表于 10-23 15:01 ?2293次閱讀

    Meta發(fā)布Imagine Yourself AI模型,重塑個(gè)性化圖像生成未來

    Meta公司近日在人工智能領(lǐng)域邁出了重要步,隆重推出了其創(chuàng)新之作——“Imagine Yourself”AI模型,這突破性技術(shù)為個(gè)性化圖像生成
    的頭像 發(fā)表于 08-26 10:59 ?938次閱讀

    圖像分割與語義分割的CNN模型綜述

    圖像分割與語義分割是計(jì)算機(jī)視覺領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個(gè)具有特定語義含義的區(qū)域或?qū)ο蟆>矸e神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的種核心模型,在
    的頭像 發(fā)表于 07-09 11:51 ?1793次閱讀

    Transformer模型在語音識(shí)別和語音生成的應(yīng)用優(yōu)勢(shì)

    自然語言處理、語音識(shí)別、語音生成等多個(gè)領(lǐng)域展現(xiàn)出強(qiáng)大的潛力和廣泛的應(yīng)用前景。本文將從Transformer模型的基本原理出發(fā),深入探討其在語音識(shí)別和語音生成
    的頭像 發(fā)表于 07-03 18:24 ?2031次閱讀

    倫敦商學(xué)院深入研究中國(guó)神州數(shù)碼戰(zhàn)略轉(zhuǎn)型

    China)數(shù)字化轉(zhuǎn)型歷程的深入研究為基礎(chǔ),共同撰寫了案例研究「神州數(shù)碼的轉(zhuǎn)型:駕馭數(shù)據(jù)、云和人工智能的潛力(The Transformation of Digital China
    的頭像 發(fā)表于 07-02 11:25 ?722次閱讀
    倫敦商學(xué)院<b class='flag-5'>深入研究</b>中國(guó)神州數(shù)碼戰(zhàn)略轉(zhuǎn)型
    主站蜘蛛池模板: 3344成年在线视频免费播放男男 | 女张腿男人桶羞羞漫画 | 中国免费黄色片 | 亚洲成a人片在线看 | 亚洲天天干 | 丝袜紧身裙国产在线播放 | 99久久久久国产精品免费 | 5566在线观看 | 黄色网在线播放 | 精品视频免费看 | 欧洲色妇 | 亚洲免费视频在线观看 | 午夜色网| 伊在线视频 | 亚洲视频在线不卡 | 久久9精品 | 人人艹人人干 | 国产吧在线视频 | 天天干天天要 | 末满18以下勿进色禁网站 | a天堂中文在线官网 | 狠狠色噜噜狠狠狠狠米奇7777 | 天天摸天天插 | 欧美日韩国产网站 | 久久精品国产四虎 | 国产精品综合色区在线观看 | 久久国产精品99久久久久久老狼 | 日本精品视频四虎在线观看 | 黄色在线观看视频网站 | 欧美亚洲网站 | 天天做夜夜做 | 日韩精品无码一区二区三区 | 天天视频黄 | 国语自产拍在线观看7m | 久久国产三级 | 日本三级网站在线线观看 | 91一区二区三区四区五区 | 正在播放国产巨作 | 天天色图 | 国产精品女人在线观看 | 日日爽夜夜 |