北京大學和新加坡國立大學的研究人員提出一種新方法去除圖像中的雨滴,通過在生成對抗網絡中插入注意力圖,去除雨滴的效果相比以往方法大幅提升。這項工作有很大的實際意義,比如用在自動駕駛中。
附著在玻璃窗戶、擋風玻璃或鏡頭上的雨滴會阻礙背景場景的能見度,并降低圖像的質量。圖像質量降低的主要原因是有雨滴的區域與沒有雨滴的區域相比,包含不同的映象。與沒有雨滴的區域不同,雨滴區域是由來自更廣泛環境的反射光形成的,這是由于雨滴的形狀類似于魚眼鏡頭。此外,在大多數情況下,相機的焦點都在背景場景上,使得雨滴的外觀變得模糊。
在這篇論文中,北京大學計算機科學技術研究所和新加坡國立大學的研究人員解決了這種圖像能見度降低(visibility degradation)的問題。由于雨滴降低了圖像質量,我們的目標是去除雨滴并產生清晰的背景,如圖1所示。
圖1:雨滴去除方法的演示。左圖:輸入的有雨滴的圖像。右圖:我們的結果,大多數雨滴被去除了,結構細節也被恢復。放大圖片可以更好地觀察修復質量。
我們的方法是全自動的。該方法將有利于圖像處理和計算機視覺應用,特別是哪些需要處理雨滴、灰塵或類似東西的應用。
有幾種方法可以解決雨滴的檢測和去除問題。但是,一些方法專用于檢測雨滴而不能將其去除,一些方法不適用于普通相機拍攝的單個輸入圖像,或者只能處理小的雨滴,并且產生的輸出很模糊。
我們的工作打算處理大量的雨滴,如圖1所示。一般來說,去除雨滴的問題是難以解決的。因為首先,被雨滴遮擋的區域不是固定的。其次,被遮擋區域的背景場景的信息大部分是完全丟失的。當雨滴較大,而且密集地分布在輸入圖像時,問題會變得更糟。
為了解決這個問題,我們使用生成對抗網絡(GAN)。在這個網絡中,產生的輸出將由判別網絡(discriminative network)進行評估,以確保輸出看起來像真實的圖像。為了解決問題的復雜性,生成網絡( generative network)首先嘗試生成一個注意力圖(attention map)。注意力圖是這個網絡中最重要的部分,因為它將引導生成網絡關注雨滴區域。 注意力圖由一個循環網絡生成,該循環網絡由深層殘差網絡(ResNets)和一個卷積LSTM和幾個標準的卷積層組成。我們稱之為attentive-recurrent network。
生成網絡的第二部分是一個自動編碼器(autoencoder),它以輸入圖像和注意力圖作為輸入。為了獲得更廣泛的上下文信息,在自動編碼器的解碼器側,我們應用了多尺度損失(multi-scale losses)。每個損失都比較了卷積層的輸出和相應的ground truth之間的差異。卷積層的輸入是解碼器層的特征。除了這些損失之外,對于自動編碼器的最終輸出,我們應用一個感知損失來獲得與ground truth更全面的相似性。最后的輸出也是生成網絡的輸出。
在獲得生成圖像輸出后,判別網絡將檢查它是否真實。但是,在我們的問題中,尤其是在測試階段,目標雨滴區域并沒有給出。因此,在局部區域上沒有判別網絡可以關注的信息。為了解決這一問題,我們利用注意力圖來引導判別網絡指向局部目標區域。
總的來說,除了引入一種新的雨滴去除方法外,我們的另一個主要貢獻是將注意力圖引入到生成網絡和判別網絡中,這是一種全新的方法,可以有效地去除雨滴。我們將發布代碼和數據集。
雨滴圖像的形成
我們將有雨滴的圖像建模為背景圖像與雨滴效果的結合:
其中I是彩色的輸入圖像,M是二進制掩碼。在掩模中,M(x) = 1表示像素x是雨滴區域的一部分,否則表示它是背景區域的一部分。B表示背景圖像,R表示雨滴帶來的效果。運算符⊙表示element-wise乘法。
雨滴實際上是透明的。然而,由于雨滴區域的形狀和折射率,雨滴區域的像素不僅受到現實世界中一個點的影響,還受到整個環境的影響,使得大部分雨滴似乎都有不同于背景場景的意象。此外,由于我們的相機被假定聚焦在背景場景上,雨滴區域內的圖像大多是模糊的。雨滴的某些部分,尤其是外圍和透明區域,傳達了一些有關背景的信息。我們注意到這些信息可以被我們的網絡利用。
使用Attentive GAN去除雨滴
圖2:Attentive GAN的架構。生成器由一個 attentive-recurrent網絡和autoencoder組成。判別器由一系列的卷積層組成,并由attention map引導。
圖2顯示了我們提出的網絡的總體架構。根據生成對抗網絡的思想,Attentive GAN有兩個主要部分:生成網絡和判別網絡。給定一個有雨滴的輸入圖像,我們的生成網絡試圖生成一個盡可能真實并且沒有雨滴的圖像。判別網絡將驗證生成網絡生成的圖像是否看起來真實。
Attentive GAN的loss可以表示為:
生成網絡(Generative Network)
如圖2所示,生成網絡由兩個子網絡組成:一個attentive-recurrent network和一個contextual autoencoder。
Attentive-Recurrent Network:視覺注意力模型被應用于定位目標區域的圖像,以捕獲區域的特征。
圖3:attention map學習過程的可視化
Contextual Autoencoder:背景自動編碼器的目的是產生一個沒有雨滴的圖像。自動編碼器的輸入是輸入圖像和Attentive-Recurrent網絡的最終注意力圖的連接。我們的deep autoencoder有16個conv-relu塊,并且跳過連接以防止模糊輸出。
圖4:Contextual Autoencoder的結構
判別網絡(Discriminative Network)
我們的判別網絡包含7個卷積層,核為(3,3),全鏈接層為1024,以及一個具有sigmoid激活函數的單個神經元。我們從倒數第三個卷積層提取特征,然后進行乘法運算。
圖5:數據集的樣本。上:有雨滴的圖像。下:相應的ground-truth圖像。
實驗結果
表1:定量評估的結果
圖6:比較幾種不同方法的結果
圖7:比較我們網絡架構的一些部分
圖8:attentive-recurrent 網絡生成的注意力圖的可視化
圖9:我們的輸出和Pix2Pix輸出之間的比較。我們的輸出具有更少的偽影和更好的復原結構
應用
為了進一步證明我們的可見性增強方法對于計算機視覺應用是有用的,我們使用了谷歌視覺API (https://cloud.google.com/vision/)來測試使用我們的輸出是否可以提高識別性能。結果如圖10所示。
圖10:一個改進谷歌視覺API結果的示例。我們的方法增加了主要對象檢測的分數以及識別到的對象數量。
可以看出,使用我們的輸出,一般的識別比沒有我們的可見性增強過程要好。此外,我們對測試數據集進行評估,如圖11的統計數據顯示,使用我們的可見性增強輸出在識別輸入圖像中的主要對象的平均得分和識別出的對象標簽數方面,顯著優于沒有可見性增強的輸出。
圖11:基于Google Vision API的改進
結論
我們提出了一種基于單幅圖像的雨滴去除方法。該方法利用生成對抗網絡,其中生成網絡通過attentive-recurrent網絡產生注意力圖(attention map),并將該圖與輸入圖像一起通過contextual autoencoder生成無雨滴圖像。然后,判別網絡評估生成的輸出的全局和局部有效性。為了能夠局部驗證,我們將注意力圖注入網絡。該方法的創新之處在于在生成網絡和判別網絡中使用注意力圖。我們還認為,我們的方法是第一種可以處理相對嚴重的雨滴圖像的方法,而目前最先進的雨滴去除方法尚沒有解決這個問題。
-
編碼器
+關注
關注
45文章
3745瀏覽量
136444 -
計算機視覺
+關注
關注
8文章
1704瀏覽量
46446 -
自動駕駛
+關注
關注
788文章
14109瀏覽量
168670
原文標題:效果驚艷!北大團隊提出Attentive GAN去除圖像中雨滴
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
一種通過曲線擬合去除圖像塊效應的算法

一種新的DSA圖像增強算法

基于暗通道原理的單幅遙感圖像高程值提取算法

一種圖像拼接的運動目標檢測方法
最小二乘規則的單幅圖像超分辨算法

使用單幅圖像超分辨率算法解決SR資源不足和抗噪性差的問題說明

基于結構自相似性和形變塊特征的單幅圖像超分辨率算法

基于加權近紅外圖像融合的單幅圖像除霧方法
可改善圖像失真現象的單幅圖像去霧算法
一種澆口蝕刻后的感光膜去除方法

評論