2. 引言
介紹一篇關于概率生成模型非常有意思的工作,保持了Aleksander Madry一如既往的風格。眾所周知,深度學習徹底改變了計算機視覺問題的的研究范式,提供了很多原來大家想完成但沒有機遇完成的工作。而這場演化確是從判別模型開始的,像Alexnet、VGG、ResNet這些工作取得的非凡進展,引發了深度學習范式的擴展。
而慢慢地,大家的注意力也從包括更復雜的任務,如圖像生成和圖像到圖像的轉換這種生成式的任務。但這種生成模型在很大程度上都是基于非常復雜的,而且基于特定任務的技術,例如GAN和VAE。所以可能就目前的進展來看,生成任務的范式是比較復雜的,但是果真所有的生成任務都這么復雜么?本文提供了一個比較新穎的角度。
本文提供了一種方法,僅憑基本分類工具就足以解決各種圖像合成任務,包括generation、inpainting、image-to-image translation、super-resolution、interactive image manipulation。論文提出的整個框架都是基于每個數據集的單個分類器,而且僅僅只涉及執行一個簡單的輸入操作:使用梯度最大化地下降使預測的類分數。
因此,這一較為通用的方法比較易于實現和訓練。其實論文提出方法最關鍵的成分是adversarially robust classifiers。此前,其實就有模型觀察到觀察到,將魯棒模型在輸入上的損失最大化,將導致其他類的狀態更接近真實的分布(maximizing the loss of robust models over the input leads to realistic instances of other classes)。
因此,基于這種結論,論文的研究結果建立了健壯的分類器作為語義圖像操作的強大manipulation。為了突出核心方法本身的潛力,論文的實驗中有意采用一種通用的分類設置,而沒有任何額外的優化。
2. 方法
論文首先介紹了作為Input Manipulation的Robust Models,
其實從這個視角來看,我們可以將魯棒優化看作是將先驗編碼到模型中,防止它依賴于輸入的難以察覺的特征。的確,也就是說,這種訓練方式可以通過鼓勵模型對小擾動不銘感,從而使得Robust training的預測變化與輸入變化的顯著性相對應。事實上,當我們最大化一個Robust Models的特定類面對目標攻擊的敏感概率時,這種現象也會出現——參見圖2中的說明。
這表明,穩健的模型表現出更多與人類一致的梯度,更重要的是,我們可以通過對模型輸出執行梯度下降來精確控制輸入中的特征。在接下來的工作中,論文闡釋了魯棒模型的這一特性足以在不同的圖像合成任務集上獲得良好的性能。論文還是反復強調,要獲取和自然數據domain相近質量的質量其實只需要充分利用分類模型就行了,GAN和VAE這些模型雖然取得了不錯的效果,但是還是對分類模型的潛力有所忽略。
3.1 Realistic Image Generation
講了這么多繞來繞去的,那論文優化目標是什么呢(中文解釋起來太復雜也可能不準確,還是看原文):
其實就是做了一個非常簡單的假設,使得模型能夠利用class-conditional distribution的混合高斯的多元模型中,重建出相應的圖像,優化目標就是使得符合最小的期望。那么效果如何呢,作者隨機選取了異步的的可視化:
3.2 Inpainting
對于inpainting,是指恢復具有大區域被mask掉的圖像。也就是說給定一個圖像x,在一個對應于二值掩碼m的區域中的內容進行補充,inpainting的目標是以一種相對于圖像其余部分感知上合理的方式恢復丟失的像素。作者發現,簡單的feed分類器,當經過robust的訓練時,可以成為這類圖像重建任務的強大工具。
其實根據上一部分我們的描述,其實可以發現我們的目標也是使用魯棒的模型來恢復圖像中缺失的特征。為此,我們將優化圖像,使底層真實類的分數最大化,同時也迫使其在未損壞的區域與原始一致。具體來說,給定一個訓練在未損壞數據上的魯棒分類器,和一個帶有標簽y的損壞圖像z,然后對優化目標進行求解:
可以發現效果確實還不錯:
3.3 Image-to-Image Translation
這個其實就跟3.1非常類似了。在本節中,我們將演示魯棒分類器為執行這種圖像到圖像轉換提供了一種新的方法。關鍵是(robustly)訓練分類器來區分源域和目標域。從概念上講,這樣的分類器將提取每個領域的顯著特征,以便做出準確的預測。然后,我們可以通過直接最大化目標域的預測得分來翻譯來自源域的輸入。
3.4 Interactive Image Manipulation
這個的優化目標和3.2類似。
4. 結論
在這項工作中,我們利用基本分類框架來執行廣泛的圖像合成任務。特別是,我們發現基本分類器學習到的特征足以完成所有這些任務,前提是該分類器具有adversarially robust。然后,論文非常生動地展示這種insight如何產生一個簡單、可靠、直接可擴展到其他大型數據集的toolkit。
事實上,與GAN這些方法不同的是,我論文的方法實際上受益于擴展到更復雜的數據集——只要底層分類任務豐富且具有挑戰性,分類器就可能學習更細粒度的特征。實際上,魯棒性可能為構建一個與人類更加一致的機器學習工具包提供了一條道路。
-
模型
+關注
關注
1文章
3499瀏覽量
50071 -
機器學習
+關注
關注
66文章
8493瀏覽量
134170 -
數據集
+關注
關注
4文章
1223瀏覽量
25299
原文標題:NeurIPS19 用分類模型完成生成任務
文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
pyhanlp文本分類與情感分析
NLPIR平臺在文本分類方面的技術解析
基于文章標題信息的漢語自動文本分類
如何使用Spark計算框架進行分布式文本分類方法的研究

文本分類的一個大型“真香現場”來了

基于深度神經網絡的文本分類分析

融合文本分類和摘要的多任務學習摘要模型

評論