在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

在圖像恢復中使用多個感受野會是什么效果?

電子工程師 ? 來源:Chu-Tak Li ? 作者:Chu-Tak Li ? 2021-04-28 14:41 ? 次閱讀

作者:Chu-Tak Li

編譯:ronghuaiyang

網(wǎng)絡結構中使用多種感受野,并對損失函數(shù)進行了改進。

今天我們要講的另一種修復論文叫做Image inpainting via Generative Multi-column CNNs (GMCNN)。本文使用的網(wǎng)絡架構類似于我們之前介紹的那些論文。本文的主要貢獻是對損失函數(shù)進行了若干修正。

回顧

正如我在以前的文章中提到的,如何利用圖像中其他像素所提供的信息,對提高圖像修復效果至關重要。圖像修復的一個非常直觀的意義是直接復制圖像本身中找到的最相似的圖像patch,并粘貼在缺失的區(qū)域。有趣的是,我們應該意識到,在實踐中,對于缺失的區(qū)域沒有“正確”的答案。在現(xiàn)實中,給定一個損壞的/mask的圖像,你不可能知道原始圖像(ground truth)來進行比較。所以,我們有這么多的答案來解決缺失的區(qū)域。

介紹和動機

從以往的圖像修復論文中,我們了解到感受野野對圖像修復的重要性。對于3×3內(nèi)核,我們可以調(diào)整膨脹率來控制它的感受野。如果擴張率為1,我們的感受野為3×3。如果膨脹率是2,通過跳過一個相鄰像素,我們有一個5×5感受野,以此類推。這里,如果我們使用帶有膨脹卷積的3×3、5×5和7×7內(nèi)核會怎么樣?這在本文中被定義為一個多列結構

在之前的文章中,尋找和缺失區(qū)域最相似的圖像patch的過程是嵌入到生成網(wǎng)絡中的,在這個工作中,該過程只是用來設計一個新的損失項用于訓練。

由于缺少的區(qū)域沒有“正確”的答案,像素級重建精度損失項(即L1損失)似乎不適用于圖像修復。作者提出了基于缺失像素的空間位置,對L1損失項進行加權。靠近有效像素的空間位置對于L1的損失應該有更高的權值,因為它們對重構有更合理的參考,反之亦然。

方案和貢獻

100063771-127840-1.png

圖1,給出了用該方法進行修復的一些結果

在我看來,本文遵循了我們之前提到的圖像修復的趨勢。首先,作者采用了擴展卷積的多分支CNN,而不是單一分支。三個不同的kernel大小被用于三個不同的分支,以實現(xiàn)不同的感受野和提取不同分辨率的特征。

其次,引入兩個新的損失項來訓練網(wǎng)絡,分別是置信度驅(qū)動的重建損失和隱多樣化馬爾可夫隨機場(ID-MRF)損失。置信度驅(qū)動的重建損失是一個加權的L1損失,而ID-MRF損失與預訓練的VGG網(wǎng)絡計算的特征patch比較有關。

圖1顯示了本文方法的一些修復結果。你可以放大以更好地查看這些高質(zhì)量的結果。

方法

100063771-127841-2.png

圖2,提出的網(wǎng)絡架構

圖2顯示了本文提出的生成式多列卷積神經(jīng)網(wǎng)絡(GMCNN)的網(wǎng)絡結構。如你所見,有一個多列生成器網(wǎng)絡、兩個鑒別器(全局和局部)和一個用于計算ID-MRF損失的預訓練VGG19。

生成網(wǎng)絡中有三列,每一列使用三種不同大小的過濾器,即3×3、5×5和7×7。、注意,這三列的輸出被連接到其他兩個卷積層以獲得完整的圖像。

ID-MRF正則化

100063771-127842-3.png

圖3,使用不同的相似性度量來搜索修復結果的最近鄰居。(a)余弦相似度的修復結果(b)提出的相對相似度的修復結果(c) Ground truth圖像(紅色矩形突出填充區(qū)域)

簡單地說,對于MRF目標,我們希望最小化生成的特征與通過預先訓練的網(wǎng)絡計算出的ground truth中的最近鄰居特征之間的差異。在大多數(shù)以前的工作,余弦相似性測量被用來尋找最近的鄰居。然而,這種相似性度量通常對不同生成的特征塊給出相同的最近鄰,導致修復結果模糊,如圖3(a)所示。

為了避免使用余弦相似度度量可能導致完成圖像模糊,我們采用了相對距離度量,修復結果如圖3(b)所示。你可以看到,完成的圖像有更好的局部精細紋理。

我們來談談它們是如何進行相對距離測量的。Y(hat)_g為缺失區(qū)域生成的內(nèi)容,Y(hat)^L_g 和 Y^L 為預訓練網(wǎng)絡的第L層特征。對分別從Y(hat)^L_g 和 Y^L中提取的v和s特征塊,計算v與s的相對相似度:

100063771-127843-4.png

mu(. , .)是余弦相似度。r屬于Y^L, v除外。h和 epsilon是正的常數(shù)。顯然,如果v比其他特性patch更類似于s,那么RS(v, s)就會很大。你也可以考慮,如果v有兩個類似的patchs和r,那么RS(v, s)就會很小。我們鼓勵在缺失區(qū)域之外尋找類似的patches。

100063771-127844-5.png

最后,計算了在Y(hat)^L_g 和 Y^L 之間的ID-MRF損耗。

100063771-127845-6.png

其中參數(shù)max RS(bar)(v, s)表示s是v最近的鄰居,Z是一個歸一化因子。如果考慮所有生成的特征patch都接近于某一特征patch s的極端情況,則max RS(bar) (v, r)較小,因此ID-MRF損失較大。

另一方面,如果Y^L 中的每個r都有自己的最近鄰居Y(hat)^L_g,則max RS(bar) (v, r)很大,因而ID-MRF損失較小。這里,主要思想是強制/引導生成的特征patch有不同的最近鄰居,從而生成的feature具有更好的局部紋理。

與先前的工作一樣,作者使用預先訓練的VGG19來計算ID-MRF損失。請注意,中間層conv3_2和conv4_2分別表示結構特征和語義特征。

100063771-127847-7.png

作者聲稱這種損失與最近鄰搜索有關,并且只在訓練階段使用。這與在測試階段搜索最近鄰居的方法不同。

特征不變重建損失

所提出的空間變異重構損失實際上是一個加權的L1損失。確定權值的方法有很多種,本文利用高斯濾波器對掩模進行卷積,生成加權掩模,計算加權L1損耗。加權L1損失的主要思想是,接近有效像素的像素損失比遠離有效像素的像素損失受到更高的約束。因此,位于缺失區(qū)域中心的像素損失應該有更低的L1損失權值(即更少的約束)。

對抗損失

與先前的工作類似,作者采用了改進的WGAN損失和局部和全局鑒別器。

最終的損失函數(shù)

100063771-127848-8.png

這是用于訓練所提模型的最終的損失函數(shù)。與大多數(shù)修復論文相似,加權L1損失(第一損失項)的重要性為1。Lambda_mrf和Lambda_adv是控制局部紋理mrf正則化和對抗訓練重要性的參數(shù)。

實驗

作者在5個公共數(shù)據(jù)集上評估了他們的方法,即Paris StreetView, Places2, ImageNet, CelebA和CelebA- hq數(shù)據(jù)集。在他們的訓練期間,所有的圖像都被調(diào)整為256×256,最大的中心孔的大小128×128。在GPU上測試256×256和512×512大小的圖像,每個圖像大約需要49.37 ms和146.11 ms。

100063771-127850-9.png

圖4,定性比較巴黎街景(上)和ImageNet(下)。(a)輸入圖像(b)上下文編碼器(c) MSNPS (d)上下文注意(e)提出的方法。

圖4顯示了Paris StreetView和ImageNet數(shù)據(jù)集的定性比較。請放大以更清楚地看到修復結果。很明顯,本文提出的方法GMCNN給出了具有最佳視覺質(zhì)量的修復結果。

100063771-127852-10.png

表1,五個數(shù)據(jù)集的定量結果

正如我在之前的文章和本文開頭提到的,PSNR與像素級重建精度有關,這可能不適用于評估圖像修復。研究人員仍然報告PSNR和SSIM供讀者參考,因為這些數(shù)值指標是所有圖像處理任務的基礎。如表1所示,本文提出的方法在五個數(shù)據(jù)集上獲得了相當甚至更好的PSNR和SSIM。

消融研究

100063771-127854-11.png

表2,巴黎街景數(shù)據(jù)集上不同網(wǎng)絡結構的定量結果

100063771-127856-12.png

圖5,對巴黎街景數(shù)據(jù)集上不同網(wǎng)絡結構的定性比較。(a)輸入圖像(b)單個編碼器-解碼器(c)粗到細(d) 3個分支中感受野固定的GMCNN (e)感受野不同的GMCNN

對不同網(wǎng)絡結構在圖像修復中的性能進行了評價。在他們的實驗中,對于從粗到細的結構,沒有使用上下文注意力。對于三個分支中感受野固定的GMCNN,采用大小為5×5的過濾器。對于具有不同感受野的GMCNN,三個分支分別使用了3×3、5×5和7×7的kernel。定量和定性結果分別見表2和圖5。顯然,具有不同感受野的GMCNN提供了最好的修復效果。

除了網(wǎng)絡結構的選擇和多重感受野的使用,作者還研究了兩個提出的損失項的有效性,即信心驅(qū)動重建損失和ID-MRF損失。

100063771-127859-13.png

圖6,對Paris StreetView數(shù)據(jù)集上不同重建損失的定性比較。(a)輸入圖像(b)空間折現(xiàn)損失(c)提出的置信驅(qū)動重建損失

圖6顯示了不同重建損失的視覺對比,即空間折現(xiàn)損失和提出的置信度驅(qū)動重建損失。請注意,空間折現(xiàn)損失根據(jù)像素的空間位置獲得權重掩碼,而提出的置信驅(qū)動重建損失通過將掩碼圖像與高斯濾波器進行多次卷積獲得權重掩碼。兩位作者聲稱,由置信度驅(qū)動的重建損失效果更好。從我自己的經(jīng)驗來看,這兩種重建損失是相似的。也許你可以試一試。

100063771-127939-14.png

表3,在Paris StreetView數(shù)據(jù)集上使用不同的lambda_mrf的定量結果

100063771-127940-15.png

圖7,在Paris StreetView數(shù)據(jù)集上使用ID-MRF損失與否的定性比較 (a) 輸入圖像(b)使用ID-MRF損失的修復結果(c)沒有使用ID-MRF損失的修復結果

100063771-127941-16.png

圖8,在Paris StreetView數(shù)據(jù)集上使用ID-MRF loss與不同的lambda_mrf進行定性比較。(a) Input image (b) lambda_mrf = 2 (c) lambda_mrf = 0.2 (d) lambda_mrf = 0.02 (e) lambda_mrf = 0.002

更重要的是,ID-MRF損失項是本文最強調(diào)的。因此,作者表明了這一失項的重要性,定量結果列在表3中。圖7顯示了使用ID-MRF損失和不使用ID-MRF損失訓練的模型之間的區(qū)別。我們可以看到,使用ID-MRF可以增強生成像素的局部細節(jié)。此外,圖8顯示了使用不同的lambda_mrf來控制ID-MRF損失的重要性的效果。你可以放大以便更好地查看結果。我個人認為,修復的結果是相似的。從表3可以看出,lambda_mrf = 0.02提供了PSNR和視覺質(zhì)量之間的良好平衡。

總結

綜上所述,本文的創(chuàng)新之處在于使用ID-MRF損失項來進一步增強生成內(nèi)容的局部細節(jié)。這種損失的主要思想是引導生成的特征patch在缺失區(qū)域之外尋找最近的鄰居作為參考,并且最近的鄰居應該是多樣化的,這樣可以模擬更多的局部細節(jié)。

多重感受野(多列或多分支)的使用是由于感受野的大小對圖像修復任務很重要。由于局部相鄰像素缺失,我們必須借用遙遠空間位置的信息來填補缺失的像素。如果你看過我之前的文章,我想這個想法對你來說并不難理解。

使用加權L1損失也是由于缺少區(qū)域沒有“正確”答案的事實。對于那些更接近缺失區(qū)域邊界的缺失像素,它們相對受到接近有效像素的約束,因此需要對L1的損失賦予更高的權值。另一方面,對于位于缺失區(qū)域中心的缺失像素,它們的L1約束應該更小。

要點

參考我在上面的結論,我希望你能理解提出的ID-MRF損失的意義,因為這是本文的核心思想。對于本文的其他兩個思路,即多列結構和加權L1損失。事實上,如果你關注過我之前的文章,我認為你可以很好地理解背后的原因。我認為多重/多種感受野的概念是深層語義修復的常見做法。

對于加權的L1損失,從我個人的經(jīng)驗來看,我不認為它會對修復性能帶來明顯的改善。當然,實現(xiàn)加權L1損失的方法有很多。如果你對此感興趣,可以試一試。

英文原文:https://towardsdatascience.com/what-if-multiple-receptive-fields-are-used-for-image-inpainting-ea44003ea7e9

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1089

    瀏覽量

    40599
  • 網(wǎng)絡
    +關注

    關注

    14

    文章

    7604

    瀏覽量

    89343
  • 卷積
    +關注

    關注

    0

    文章

    95

    瀏覽量

    18557
  • cnn
    cnn
    +關注

    關注

    3

    文章

    353

    瀏覽量

    22364
收藏 人收藏

    評論

    相關推薦

    高清術攝像機助力手術過程的準確性和可視化

    攝像機在手術室中的應用是非常重要和必要的。它通過實時傳輸手術過程的圖像,為醫(yī)生提供了清晰、準確的視野,幫助他們進行手術操作。
    的頭像 發(fā)表于 01-21 16:01 ?77次閱讀

    Mamba入局圖像復原,達成新SOTA

    和Transformer的方法更受歡迎。得益于Mamba全局感受、線性計算復雜度、高效遠程依賴處理等諸多優(yōu)勢,它在圖像復原(比如超分辨率、去噪等)任務
    的頭像 發(fā)表于 12-30 18:09 ?267次閱讀
    Mamba入局<b class='flag-5'>圖像</b>復原,達成新SOTA

    【每天學點AI】實戰(zhàn)圖像增強技術人工智能圖像處理中的應用

    圖像增強(ImageEnhancement)是人工智能和計算機視覺中一項重要的技術,也是人工智能數(shù)據(jù)集預處理的一個重要步驟。它旨在提高圖像的質(zhì)量,使其視覺上更加清晰、細節(jié)更豐富。這項技術
    的頭像 發(fā)表于 11-22 17:14 ?913次閱讀
    【每天學點AI】實戰(zhàn)<b class='flag-5'>圖像</b>增強技術<b class='flag-5'>在</b>人工智能<b class='flag-5'>圖像</b>處理中的應用

    島宣布收購日本電腦廠商VAIO

    近日,日本家電連鎖巨頭島宣布了一項重大收購計劃,將以112億日元的價格從日本產(chǎn)業(yè)合作伙伴(JIP)手中收購電腦廠商VAIO超過90%的股權。這一收購行動標志著電子產(chǎn)品領域的進一步擴張。 根據(jù)
    的頭像 發(fā)表于 11-14 14:21 ?374次閱讀

    島將收購日本電腦廠商VAIO

    日本家電連鎖巨頭島(Nojima)于11月11日正式宣布,將收購日本知名電腦廠商VAIO。此次收購中,島將從企業(yè)再生基金日本產(chǎn)業(yè)合作伙伴(JIP)手中獲得VAIO超過90%的股權,收購金額高達112億日元。
    的頭像 發(fā)表于 11-13 15:17 ?416次閱讀

    FPGA圖像處理領域的優(yōu)勢有哪些?

    處理復雜、多變的圖像場景時具有更高的靈活性和適應性。 三、短開發(fā)周期 與傳統(tǒng)的ASIC(專用集成電路)相比,F(xiàn)PGA的開發(fā)周期更短。ASIC需要經(jīng)過設計、驗證、生產(chǎn)等多個環(huán)節(jié),而FPGA可以短時間
    發(fā)表于 10-09 14:36

    反向電流應用中使用比較器

    電子發(fā)燒友網(wǎng)站提供《反向電流應用中使用比較器.pdf》資料免費下載
    發(fā)表于 09-19 12:50 ?0次下載
    <b class='flag-5'>在</b>反向電流應用<b class='flag-5'>中使</b>用比較器

    設計中使用MOSFET安全工作區(qū)曲線

    電子發(fā)燒友網(wǎng)站提供《設計中使用MOSFET安全工作區(qū)曲線.pdf》資料免費下載
    發(fā)表于 09-07 10:55 ?1次下載
    <b class='flag-5'>在</b>設計<b class='flag-5'>中使</b>用MOSFET安全工作區(qū)曲線

    設計中使用MOSFET瞬態(tài)熱阻抗曲線

    電子發(fā)燒友網(wǎng)站提供《設計中使用MOSFET瞬態(tài)熱阻抗曲線.pdf》資料免費下載
    發(fā)表于 08-28 09:21 ?17次下載
    <b class='flag-5'>在</b>設計<b class='flag-5'>中使</b>用MOSFET瞬態(tài)熱阻抗曲線

    計算機視覺中的圖像融合

    許多計算機視覺應用中(例如機器人運動和醫(yī)學成像),需要將多個圖像的相關信息整合到單一圖像中。這種圖像融合可以提供更高的可靠性、準確性和數(shù)據(jù)
    的頭像 發(fā)表于 08-01 08:28 ?824次閱讀
    計算機視覺中的<b class='flag-5'>圖像</b>融合

    圖像處理中的卷積運算

    卷積運算是圖像處理中一種極其重要的操作,廣泛應用于圖像濾波、邊緣檢測、特征提取等多個方面。它基于一個核(或稱為卷積核、濾波器)與圖像進行相乘并求和的過程,通過這一操作可以實現(xiàn)對
    的頭像 發(fā)表于 07-11 15:15 ?2740次閱讀

    linux中使用esptool.py下載圖像,下載成功但無法啟動是怎么回事?

    我有一個參考 ESP-WROOM-02 設計的 EVB,CH340 作為 usb2 串行接口。我嘗試 linux 中使用 esptool.py 下載圖像,下載成功但無法啟動。我Wi
    發(fā)表于 07-08 06:21

    鴻蒙ArkTS聲明式開發(fā):跨平臺支持列表【圖像效果】 通用屬性

    設置組件的模糊、陰影、球面效果以及設置圖片的圖像效果
    的頭像 發(fā)表于 06-04 16:34 ?759次閱讀
    鴻蒙ArkTS聲明式開發(fā):跨平臺支持列表【<b class='flag-5'>圖像</b><b class='flag-5'>效果</b>】 通用屬性

    鴻蒙開發(fā)圖形圖像——@ohos.effectKit (圖像效果)

    圖像效果提供處理圖像的一些基礎能力,包括對當前圖像的亮度調(diào)節(jié)、模糊化、灰度調(diào)節(jié)、智能取色等。 該模塊提供以下圖像
    的頭像 發(fā)表于 02-22 16:08 ?485次閱讀
    鴻蒙開發(fā)圖形<b class='flag-5'>圖像</b>——@ohos.effectKit (<b class='flag-5'>圖像</b><b class='flag-5'>效果</b>)

    TC264的TriBoard中使用ABM啟動方式BMHD中將HWCFG[6]拉低了結果程序無法下載了,請問如何恢復

    TC264的TriBoard中使用ABM啟動方式BMHD中將HWCFG[6]拉低了結果程序無法下載了,請問如何恢復?需要將HWCFG[2:0] = 1 1 1嗎?TriBoard電源指示燈顯示正常。
    發(fā)表于 02-20 06:36
    主站蜘蛛池模板: 国产精品9999 | 免费啪啪小视频 | 免费色片网站 | 欧美一区二区三区在线观看 | 日本免费在线 | 国产日日干| 五月激情婷婷综合 | 奇米影视大全 | 添人人躁日日躁夜夜躁夜夜揉 | 天堂亚洲网 | 特级一级毛片 | 天天视频国产精品 | 精品一区二区三区免费爱 | 又色又爽的视频 | 丁香花成人另类小说 | 一级毛片真人免费播放视频 | 日日干干| 九九热精品在线视频 | 综合网天天操天天射 | 天天干天天透 | 99精品久久99久久久久久 | 国模爱爱| 免费xxxx大片| 欧美一级视频在线 | 开心丁香婷婷深爱五月 | 日本写真高清视频免费网站网 | 一本到在线观看视频不卡 | 网站四虎1515hhcom | 中文字幕第十页 | 你懂的网址在线 | 国产情侣草莓视频在线 | 曰本a| 玖玖激情 | 高h乱肉辣文辣书阁 | 6080yy午夜不卡一二三区 | 天堂中文字幕在线 | aaaaa国产毛片 | 最刺激黄a大片免费观看下截 | 亚洲专区一区 | 伊人久久大香线蕉综合7 | 黄色在线 |