教新手畫畫?字體風格遷移?換明星“假臉”?毫無疑問,在圖像生成中 GAN 以其生成以假亂真的圖像“發揮”出了巨大的潛力。
日前,來自日本東京大學和 Preferred Networks 公司的團隊開源了一款名為「neural collage」的圖像編輯工具,允許用戶在圖像的制定位置更改圖像的語義信息,以達到圖像拼貼的效果。
例如,將一只面露兇光的哈士奇的圖片換臉成為可愛的博美。
而更值得一提的是,整個過程的中間操作非常簡單。
如何使用和安裝?
首先保證 Python 3.6 以上的語言環境,并安裝所需的 Python 庫:pip install -r requirements.txt
如果想要使用預訓練模型生成圖像,項目作者該提供了鏈接以下載模型。需要注意的是,將 snapshot 參數設置為下載的預訓練模型文件(.npz)的路徑。
相關鏈接:
https://drive.google.com/drive/u/0/folders/1SFmq9LjEkIXXAKo6p-Wdlfu0BUFSyLJi
https://drive.google.com/drive/folders/1qPP2RxMNnPSbacotnG7_H5dZrQpOmI3D
作者表示,基于 GAN 模型采用了兩種新策略:sCBN 和 特征混合,并在“Spatially Controllable Image Synthesis with Internal Representation Collaging”論文中詳述了該方法原理及實現效果。
鏈接:
https://arxiv.org/abs/1811.10153
以下為論文解讀:
摘要
本文提出了一種基于卷積神經網絡(CNN)模型的圖像編輯策略,這種新穎的方法通過對 GAN模型生成的圖像進行特征空間表征,從而改變圖像任意區域的語義信息。
該策略能夠與任何帶條件正則化層 (conditional normalization layers) 的 GAN模型相結合,用于圖像對人工圖像和真實圖像的編輯任務,它有如下兩種變體:
(1) sCBN (spatial conditional batch normalization),這是一種基于用戶指定空間權重映射的條件批正則化方法;
(2) 特征混合(feature-blending),即一種直接修改中間特征圖的方法。此外,通過在不同數據集上、與不同 GAN 模型結合實驗,進一步驗證了本文所提出方法的有效性及強大性能。
簡介
深度生成模型,如生成對抗網絡(GANs)和變分自編碼器(VAE)是很有潛力的無監督學習技術,具有強大的語義信息表征能力。
其中以 GAN 在圖像任務方面尤為成功,如圖像著色、圖像修復、領域轉換、風格遷移、目標形變等應用。
隨著穩定 GAN 模型訓練的方法的相繼提出,這類模型在圖像生成方面也得到廣泛的應用。
然而,如何根據用戶的意愿正則化 GAN 模型,得到想要的輸出,這仍是當前相關領域的一大問題。
先前的研究,諸如條件生成對抗網絡(CGAN)、InfoGAN、風格生成對抗網絡(StyleGAN)等都在探索如何讓生成對抗網絡有指向性地生成所需要的圖像。
而最近提出的 GAN dissection 研究深入探索了模型輸出與中間特征語義信息之間的關系,并通過推理關系 (relation) 成功實現逼真圖像的生成。
受此啟發,本文提出一種新穎的圖像變換方法,即 sCBN 和特征混合策略,通過處理生成網絡圖像的中間特征來編輯圖像,并允許用戶對圖像語義信息進行復制、粘貼等編輯操作。
其中, sCBN 基于用戶所指定的混合系數 (標簽拼貼(label collaging)) 的空間映射圖,允許用戶融合多標簽的語義信息。
如此,不僅可以從一個標簽映射圖中生成圖像,還能夠通過局部的圖像語義改變圖像。
如下圖1a,該方法能夠將一只哈士奇的眼睛變為博美犬的眼睛。
特征混合能夠在中間特征空間直接融合多張圖像,還能將復雜特征進行局部混合;圖 1b 中,通過特征混合將一只動物的姿態變為模型所定義的姿勢。
圖1 通過 sCBN 方法 (a) 和特征混合方法 (b) 得到的特征拼貼樣本。
總的來說,該方法的一大優勢在于只需要訓練 AdaIN 或 CBN 結構的 GAN 模型就能實現,無需額外訓練其他模型。
它能夠用于 GAN 模型所生成的任意圖像,適用于廣泛的圖像語義操作。此外,通過與流形投射 (Manifold projection) 結合,該方法能夠對真實圖像的局部語義信息進行編輯處理,并大量實驗中展現了強大的性能。
方法
sCBN
sCBN 是一種特殊形式的條件批正則化方法 (CBN),作為批正則化方法 (BN) 的變體,它能夠對 BN 中的參數按類語義信息進行編碼。對于圖像的局部類標簽,它通過空間變換來改變條件批正則化參數,如下圖2所示。
圖2 CBN 方法和 sCBN 方法中層結構對比圖。左邊是 CBN 方法,它通過空間一致長度,逐層向生成的圖像添加類別特征。
右圖是 sCBN 方法,該方法的每一層將用戶指定的混合密度與類特征混合到生成的圖像中。
基于單一類別的圖像樣本,CBN 方法通過特定類的放縮比例 (class-specific scale) 和偏差參數 (bias parameters) 來正則化中間特征集合。
而 sCBN 則是將 CBN 方法中的放縮比例項替換為一種加權和的形式,該權重系數是由混合系數的非負張量映射組成,這是由用戶所決定的。
如此,用戶可以通過所選取的權重系數來決定某個類別 c 在任意區域的特征密度,達到控制生成輸出的目的。
此外,通過所選用的權重值控制圖像不同區域不同類別的特征密度,用戶可以將圖像多個不相交部分進行分類。
空間特征混合
空間特征混合 (spatial feature blending)是一種可以提取圖像特定區域特征并將其與其他特征混合的方法。
與 sCBN 方法中的權重系數類似,用戶同樣可以通過選擇特征混合參數 M 來控制所混合的效果。
此外,通過流形投射變換,該方法還能用于真實圖像的編輯處理,如下圖3所示,通過特征混合處理,將圖像 G(z2) 和 G(z1) 的嘴巴特征混合。用戶只需要通過選擇選擇嘴巴特定區域的混合系數 M,就能夠實現這種效果。
圖3 空間特征混合方法,通過不斷地迭代過程,在生成網絡的特征空間,將不同隱變量生成的圖像混合到目標圖像中去。
真實圖像應用
通過尋找一個流形投射方法,使得隱變量 z 滿足 G(z) 與 x 大致相等,實現真實圖像的語義信息進行編輯。
在獲得 x 的倒數后,可以通過應用相同的流程來更改 x 的部分標簽信息或將其他圖像特征混合到 x 中。
實際的圖像編輯流程如下圖4所示,在圖像變換的最后一步,這里采用一個泊松混合(Poisson blending)的后處理步驟。
這主要是因為 GAN 模型沒有解耦圖像背景信息的能力,而通過泊松混合操作能夠去除感興趣區域的一些偽像。
圖4 將特征空間拼貼算法應用于真實圖像的流程:用戶需要指定混合映射圖,選擇特征空間拼貼方法,并在后處理時將掩碼用于泊松混合過程。
下圖5展示的是不同類別條件的圖像重構例子。
圖5 通過流形投射對多種類別標簽進行圖像重構的例子。其中紅色幀圖像是通過原始類別標簽進行重構的圖像。
下圖6展示兩種方法在真實圖像上的應用例子。左側是 sCBN 方法在真實圖像上的結果,而右圖是特征混合方法所得到的結果。
圖6 sCBN 和特征混合方法在圖像上的應用。
實驗
結果分析
這里,將所提出的方法與 DCGAN 模型相結合,并在多個不同圖像數據集來驗證方法的有效性。
此外,為了驗證流形投射和 DCGAN 模型的表征能力,這里還進行一系列的非空間變換的消融實驗 (ablation experiments)。
下圖7展示的是使用 sCBN 方法所得到的標簽拼貼示例。可以看到,該方法能夠調整圖像的全局信息 (如面部、形狀) 和局部信息 (如顏色、紋理),而不會破壞圖像的語義一致性。
圖7 sCBN 方法的標簽拼貼結果。其中,紅線包圍的區域被翻譯為目標標簽。
圖8顯示的是使用特征混合所得到的標簽拼貼結果。可以看到,該方法成功地修改了圖像的語義分割,而不會破壞原始圖像的質量。
這種方法對于轉換區域的語義排列信息有很強的魯棒性。
圖8 特征混合方法的標簽拼貼結果。其中,紅色幀區域內的特征被混合到基礎圖像中。
每層的拼貼效果
通過一系列的消融研究來探究模型中每層修改的影響。下圖9是 sCBN 方法分別應用于 (1) 所有層,(2) 最靠近輸入層,(3) 除了第一層的所有層,所得到的結果。
可以看到,越靠近 z 層,該方法對于全局特征的影響越明顯;而越靠近 x 層,sCBN 方法對就局部特征的影響越顯著。
圖9 在不同層的拼貼效果。從上到下分別是 sCBN 方法作用于不同層所得到的結果。
同樣,下圖10展示的特征混合方法,則是以不同的混合權重,應用于不同層 (l=1,2,3,4) 所得到的結果。
可以看到,當用于第一層時,全局特征將受到影響,而局部特征將會被保留。而當該方法應用于靠近 x 層時,所得到的結果則相反。
因此,用戶可以根據需要,更精細地選取混合權重系數來控制局部特征轉換及其密度。
圖10 特征混合方法作用于不同層所得到的結果
真實圖像的轉換
為了通過分類精度和人類感知測試來定量評估方法在真實圖像轉換方面的表現,將 sCBN 方法應用于 ImageNet 數據集中的圖像,并進行 (1) cat→big cat,(2) cat→dog 以及 (3) dog→dog 的變換。
隨后,以 UNIT 和 MUNIT 為基準,將本文所提出的方法與其進行對比分析,結果如下圖11。
可以看到,在 top-5 錯誤率方面,該方法的表現更優于其他兩種基準,這也驗證了它在真實圖像變換方面的有效性。
圖11 top-5 分類錯誤率結果
結論
本文提出一種新穎有效的圖像編輯策略,通過 sCBN 和特征混合方法,對圖像中間特征表征進行處理,從而達到修改語義信息、編輯圖像的目的。
其中條件正則化方法不僅能夠處理類別條件,還能處理其他的信息,在未來的研究中可以將該方法應用于更廣泛的非圖像數據集。
然而,在研究中仍發現一些不足之處:表達能力受限的生成網絡,尤其是在與流形投射結合用于處理真實圖像變換,未來的研究中相關問題仍值得深入探究。
-
圖像
+關注
關注
2文章
1091瀏覽量
40911 -
GaN
+關注
關注
19文章
2137瀏覽量
75801 -
python
+關注
關注
56文章
4822瀏覽量
85857
原文標題:惡犬秒變萌汪:東京大學開源“治愈系” GAN 圖片拼貼工具 | 技術頭條
文章出處:【微信號:mcuworld,微信公眾號:嵌入式資訊精選】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
東京大學研究出柔性有機閃存

東京大學的研究人員:新開發的電子皮膚有一個LED顯示屏
IBM和東京大學合作共同推進量子計算應用
東京大學AI新創推出一款學習型的搬運機器人
東京大學內部芯片項目的名稱譯名是什么?
東京大學研究出一種人工智能技術,快速篩查癌變
看東京大學教授如何用藍牙技術來監測房間使用情況
日本東京大學:研制納米級量子傳感器實現高清成像

AI圖像編輯技術DragGAN開源,拖動鼠標即可改變人物笑容
伯克利AI實驗室開源圖像編輯模型InstructPix2Pix,簡化生成圖像編輯并提供一致結果

評論