編者按:《GANs in Action》作者Jakub Langr評述了在ICML 2018上發(fā)表的GAN論文,以及相應(yīng)報告。
鄭重聲明,我非常尊重研究人員在ICML上發(fā)表的所有驚人工作。我離他們的水平還差得遠(yuǎn),感謝他們?yōu)橥七M(jìn)這一領(lǐng)域研究所做的貢獻(xiàn)!
參加ICML總體上是一次很棒的體驗。不過本文的主題不是我的想法、印象、體驗。整個工業(yè)界正緩慢地滑入學(xué)術(shù)會議,我覺得我也許可以更進(jìn)一步,總結(jié)一下從業(yè)者最感興趣的ICML上GAN方面的成果。
這意味著,在我看來無法為最終目標(biāo)主要不是發(fā)表論文的人所應(yīng)用的那些學(xué)術(shù)貢獻(xiàn),我的評價會打上一些折扣。這也意味著,我會使用更平易近人的語言,不會深入論文的理論或技術(shù)細(xì)節(jié)。另外,這還意味著,我會給出一些個人的意見和想法,其中一些意見和想法,你可能并不贊同。我希望這篇文章對機(jī)器學(xué)習(xí)從業(yè)者有用,特別是那些初入這一領(lǐng)域的人。我在準(zhǔn)備這次會議的時候大概讀了50篇這方面的論文,所以我想為他們提供一些上下文。
本文中的解釋常常是簡短而粗糙的,另外不是每篇論文的主題都是GAN。
我的公司Mudano提供了培訓(xùn)的預(yù)算,我選擇把部分預(yù)算用于參加ICML,機(jī)器學(xué)習(xí)的三大頂會之一。這是一次令我增廣見聞的獨(dú)特體驗。為了更好地總結(jié)參會的收獲,我決定記錄大部分接觸到的論文。本文按照ICML的議程排序。我沒有列入周六、周日的內(nèi)容,因為那兩天大部分是workshop。(我參加了可重現(xiàn)機(jī)器學(xué)習(xí)的workshop,我希望大多數(shù)機(jī)器學(xué)習(xí)從業(yè)者至少有些熟悉這一主題。如果大家對此感興趣,我以后會寫文章介紹。)
11日,周三
RadialGAN
GAN的優(yōu)勢部分在于半監(jiān)督學(xué)習(xí)和數(shù)據(jù)增強(qiáng)。基本上,RadialGAN讓我們可以利用多個不同來源的數(shù)據(jù)集,通常這能帶來更好的表現(xiàn),即使在某些數(shù)據(jù)集質(zhì)量不高或者和手頭任務(wù)關(guān)系不密切的情況下也是如此。RadialGAN首先將數(shù)據(jù)集轉(zhuǎn)換為共享的潛空間,接著再將潛空間轉(zhuǎn)換為手頭任務(wù)的目標(biāo)域。
我個人非常喜歡這篇論文。這篇論文在工業(yè)界有很大的潛力。報告很清晰。我的一個同事很為RadialGAN的潛力激動。如果能將RadialGAN應(yīng)用到你手頭的問題上,相信效果會大為不同。
ILVM
基本上,ILVM通過人工介入的主動學(xué)習(xí)方法確保我們能以更容易讓人理解的方式解釋潛空間。雖然有潛在的降低精確度的風(fēng)險,但能讓我們說明潛空間的哪個維度影響哪個性質(zhì)。
聽起來很有趣,因為通常解釋清楚潛空間和生成樣本之間的變換需要大費(fèi)周折。報告的表述不是非常清晰。
哪種GAN的訓(xùn)練方法真能收斂?
Lars等發(fā)表的這篇論文通過在GAN的訓(xùn)練過程中施加特定類別的梯度懲罰,在較老的架構(gòu)上取得了當(dāng)前最先進(jìn)的表現(xiàn)(在該項基準(zhǔn)測試上超過了之前最佳的學(xué)術(shù)成果)。相關(guān)代碼見GitHub:LMescheder/GAN_stability
令人印象相當(dāng)深刻的成績。所用的技術(shù)比較復(fù)雜,但花一些時間理解這一技術(shù)應(yīng)該是值得的。之前有一些類似的研究,但這次取得的結(jié)果讓這一技術(shù)的價值不言而喻。在無需漸進(jìn)增長的情況下取得PGGAN等級的結(jié)果!
氣平方GAN
氣平方GAN結(jié)合了GAN的三種不同思路:
中央的x2-GAN即氣平方GAN
這篇論文的理論價值大概很高,但對從業(yè)者而言,實際用途看起來多少比較有限。
基于分類的GAN分布協(xié)方差偏移研究
Santurkar等的這項檢測模型崩塌(mode collapse)的研究很酷。學(xué)術(shù)界常常需要嘗試檢測訓(xùn)練中出現(xiàn)的問題,在這方面這篇論文意義很大。
我覺得為評估訓(xùn)練質(zhì)量提供一個一致的基準(zhǔn)真是功莫大焉。不過我更偏愛其他測度。但是這項研究提出的方法大概可以作為測度集成的一部分使用。
NetGAN
挺有趣的工作,展示了GAN可以應(yīng)用于生成非常復(fù)雜的圖。NetGAN取得了當(dāng)前最先進(jìn)的表現(xiàn)(據(jù)鏈接預(yù)測精確度)。
12日,周四
幾何學(xué)評分
這項工作提出了一種基于拓?fù)浞治鰳?gòu)建的通用測度,可以評估成功覆蓋了多少比例的原數(shù)據(jù)集,并通過逼近計算生成數(shù)據(jù)集的多樣性。
實際上我對此感到非常興奮,因為它讓我們可以評估任何領(lǐng)域的GAN并檢測模型塌縮。在這項工作之前,我們完全沒有通用的評估方法。也許以后有一天,我們甚至能看到評估質(zhì)量的通用方法。
GLO
GLO與典型的GAN設(shè)置不大一樣,它的目標(biāo)是創(chuàng)建能夠生成更好樣本的模型。GLO優(yōu)化生成網(wǎng)絡(luò)的潛空間,聚焦于模型塌縮問題和生成不一樣但足夠類似的樣本。
我對這篇論文感覺有點復(fù)雜。一方面,我覺得這篇論文寫得主觀性很強(qiáng)——在學(xué)術(shù)界這可不同尋常——我不同意其中的很多東西。另一方面,在ICML期間的非正式討論事實上非常好,提供了很多信息。在討論時,有一個研究者提出了一個有趣的觀點,模型塌縮正是GAN奏效的原因。這是一則迷人的斷言,我很想知道是不是果真如此。關(guān)于這篇論文還有一樁趣聞,這篇論文被ICLR拒了,作者們重新在ICML上發(fā)表了。
LCC
LCC試圖通過局部坐標(biāo)編碼提升GAN的表現(xiàn),這讓潛空間更復(fù)雜了。報告的表述不是非常清晰,但主要思想是探索流形假說——某個低維潛空間和復(fù)雜流形(例如,圖像)間存在一個映射。所有GAN歸根打底都取決于這一假說。但如果你思考這個映射的話,它看起來顯得有些奇怪,你可以在這么低維的空間表示所有圖像。由于某種原因,這篇論文沒有對比當(dāng)前最先進(jìn)方法。
3D點云的學(xué)習(xí)表示和生成式模型
3D點云,誰不愛?太酷了。在這篇論文中,作者創(chuàng)建了一個更為強(qiáng)大的模型以生成一般物體的3D點云。盡管仍有許多需要改進(jìn)的地方,總的來說效果很贊。
對抗學(xué)習(xí)圖像到圖像轉(zhuǎn)換的理論分析
這篇論文分析了GAN的配對轉(zhuǎn)換,主張配對圖像轉(zhuǎn)換的損失基本上由兩部分組成。身份損失(identity loss)確保圖像是正確的,而對抗損失(adversarial loss)確保圖像是清晰的。
這是一項有趣的理論工作,但目前而言從業(yè)者大概用不到。同時論文中一張圖也沒有,所以我這里附上了招貼畫上的圖像(不好意思,拍糊了!)。
復(fù)合函數(shù)梯度
這篇論文引入了一種看起來有理論支持的更為復(fù)雜的訓(xùn)練算法(漸進(jìn)式復(fù)合函數(shù)梯度,ICFG),接著又創(chuàng)建了一個逼近ICFG的算法版本xICFG,在訓(xùn)練過程中加入了if語句,在我看來感覺像是一種ad-hoc。最終結(jié)果超過了當(dāng)前最先進(jìn)的水平,但我一般不太喜歡增加這么多復(fù)雜度的方法。
調(diào)和對抗網(wǎng)絡(luò)
這篇論文背后的高層想法很有趣。和PGGAN類似,作者也認(rèn)為GAN的問題在于剛開始面對的任務(wù)太難了。因此作者轉(zhuǎn)而創(chuàng)建了一個網(wǎng)絡(luò),給圖像加上了一點變形,讓生成器的任務(wù)輕松一點。采用這一方法后,表現(xiàn)超過了當(dāng)前最先進(jìn)水平。
RFGAN
基本上,這篇論文連接了生成圖像的自編碼版本,傳給判別器作為參考。招貼畫極為清晰地描述了這一架構(gòu),只可惜我的手機(jī)好像丟失了相關(guān)照片。
所得結(jié)果超過了當(dāng)前最先進(jìn)水平,但超得不多,所以我不太確定這是否可以算是一項突破。
計算精確Wasserstein距離
這篇論文引入了線性編程以可控地計算精確的Wasserstein距離,并據(jù)此改善訓(xùn)練。Wasserstein距離的問題在于,即使簡單的點云也會帶來組合性的復(fù)雜度,使得精確距離的計算變得相當(dāng)復(fù)雜。這篇論文做到了這一點,并且戰(zhàn)勝了當(dāng)前最先進(jìn)的模型。
論文中用于基準(zhǔn)測試的數(shù)據(jù)集既簡單又有限(MNIST、CIFAR-10),所以我很想知道這一方法在Celeb-A HQ和ImageNet-1000這樣的數(shù)據(jù)集上表現(xiàn)如何。
Jacobian clamping
和其他一些ICML上的論文一樣,我老早就讀過這篇論文,但作者們在招貼畫上非常出色地簡要總結(jié)了結(jié)果。基本上,他們使用Jacobian clamping控制生成器更新從而達(dá)成穩(wěn)定得多的訓(xùn)練。雖然表現(xiàn)沒有明顯提升,但穩(wěn)定性方面的提升表明了這一技術(shù)的價值。
作為從業(yè)者,如果你碰到GAN穩(wěn)定性的問題,這是值得嘗試的論文。
GAIN
這也許是從業(yè)者最感興趣的論文之一,因為它處理的是我們經(jīng)常碰到的問題——缺失數(shù)據(jù)。它創(chuàng)建了帶有提示機(jī)制的GAN配置,以推斷匹配分布的缺失值。我們知道GAN很擅長創(chuàng)建生成式分布。提示機(jī)制的加入很有必要,否則這一問題對判別器而言太難了——部分缺失數(shù)據(jù)和真實數(shù)據(jù)有太多合理的排列組合,沒有提示機(jī)制問題很快會失控。
我已經(jīng)給一些同事安利過這篇論文。
基于受限查詢和信息的黑盒對抗攻擊
這是為數(shù)不多的真實對抗攻擊論文。技術(shù)上說,其中并沒有涉及GAN或者生成式建模——我猜除了擾動的部分涉及一點——但這是一篇以非常有趣的方式進(jìn)行真實對抗攻擊的論文。
我仍然認(rèn)為深度學(xué)習(xí)模型還沒有普及到可以讓這一對抗攻擊造成任何實際傷害,但這篇論文涉及到了實際的問題。
一等GAN
這篇論文背后的思路是在WGAN-GP之類的梯度懲罰的情形下,與其優(yōu)化WGAN損失接著加入懲罰,不如直接優(yōu)化帶有懲罰的損失。作者們說,在一些病態(tài)情形下,優(yōu)化損失接著加入懲罰會讓生成分布不那么接近目標(biāo)分布。在招貼畫周圍有人(不是我)寫了一些非正式的質(zhì)疑和證明,但我可不會拿這些去逼問作者們的,哈哈哈。
SPIRAL
DeepMind的這項工作使用GAN生成能夠控制筆刷的程序,可以學(xué)習(xí)繪制任意風(fēng)格的作品。
MAGAN
好吧,我現(xiàn)在相當(dāng)確定MAGAN是流形對齊GAN(Manifold Alignment GAN)的簡稱,雖然報告的時候從來沒提到這點。但當(dāng)我第一次見到一個美國人報告這樣一篇論文,我還以為這個名稱有什么政治寓意呢,哈哈。(譯者注,作者這里應(yīng)該是聯(lián)想到了川普的口號Make America Great Again)。基本上,MAGAN通過添加對應(yīng)損失確保兩個流形總是一致對應(yīng)的(而不是像其他算法中那樣隨機(jī)對應(yīng))。
有意思的珍品。在報告之后,有人“提問”,聲稱上一屆NIPS已經(jīng)有一篇論文做的是一模一樣的事情。作者不知道那篇論文。你怎么看?
時刻到事件的對抗建模
這篇論文和GAIN的領(lǐng)域類似,只不過聚焦于時序數(shù)據(jù),并且大致可以得到更好的特定時間的時刻分布的概率分布(基本能夠自動推斷)——例如醫(yī)院中的并發(fā)癥。
對處理時序數(shù)據(jù)的人而言,這是篇很有用的論文。
CyCADA
這篇論文應(yīng)對的是大量從業(yè)者在GAN上反復(fù)碰到的問題:我們的模型沒有概括性。我們經(jīng)常碰到這樣的事情,部署在ImageNet(打個比方)上訓(xùn)練的模型,然后發(fā)現(xiàn)它的表現(xiàn)很糟糕。這只是因為,即使只考慮ImageNet上的分類,真實世界也比ImageNet復(fù)雜得多。CyCADA擴(kuò)展了CycleGAN,基本上可以在實現(xiàn)領(lǐng)域到領(lǐng)域的變換時保證正確語義。所以CyCADA具有應(yīng)用于自動駕駛汽車之類的場景的潛力,可以在安全、可伸縮的計算機(jī)生成環(huán)境中創(chuàng)建自動駕駛汽車,接著轉(zhuǎn)換機(jī)器學(xué)習(xí)系統(tǒng)至真實世界。
真的很有趣!絕對值得一試。
AIQN
技術(shù)上說,這篇論文并不涉及GAN。AIQN“不過”是一個自回歸模型,但它能夠生成和當(dāng)前最先進(jìn)的GAN的水平相當(dāng)?shù)慕Y(jié)果。真的很令人印象深刻,但和所有自回歸模型一樣,這個設(shè)定在放大上很成問題。報告之后,作者提出可以使用自動編碼器來放大圖像,但這又帶來了一堆新的挑戰(zhàn)。
這是一個有趣的方法,但有人做過類似的工作(雖然生成圖像質(zhì)量不如這項工作好),這些工作都沒能跨過32×32的像素限制,AIQN也是一樣。很多人嘗試過,但都沒能克服這一限制。除非能突破限制,否則我們不太確定這類方法是否真能放大;注意GAN已經(jīng)進(jìn)入1024×1024的時代。
M-BGAN
不同于常規(guī)的GAN,M-BGAN使用真實數(shù)據(jù)和合成數(shù)據(jù)混合的batch,進(jìn)一步提升判別器的能力。正如作者們在總結(jié)部分所說:“一個簡單的架構(gòu)技巧使其能夠可證實地復(fù)原所有作為無序集合的batch的功能。”
我真心喜歡這篇論文,因為它是一個優(yōu)雅的想法,同時總結(jié)部分很好地總結(jié)了這篇論文。讓我們拭目以待,看看這是否會成為占據(jù)統(tǒng)治地位的框架。不過我覺得作者們引用其他架構(gòu)的方式有點奇怪(全部引用同一篇論文)。
JointGAN
這是一個類似CycleGAN的架構(gòu),不過CycleGAN僅僅推斷條件分布,而JointGAN聯(lián)合學(xué)習(xí)每個域的邊緣概率分布。剛開始,它通過噪聲生成X,接著以X為條件基于邊緣概率分布生成Y。
我發(fā)現(xiàn)報告有點含糊,但結(jié)果看起來真是很有趣。生成的文本看起來真是令人印象深刻,不過接著作者說這實際上是由一個自動編碼器從潛空間生成的文本,而這個自動編碼器是由GAN生成的。
AugCGAN
AugCGAN是增強(qiáng)CycleGAN(Augmented CycleGAN)的簡稱。這真是一個非常酷的CycleGAN擴(kuò)展。和標(biāo)準(zhǔn)形式的CycleGAN相比,AugCGAN在第一次和第二次生成時插入了潛空間。CycleGAN的循環(huán)一致性損失(Cycle-consistency loss)是通過diff(X1, X2)衡量的,其中X1 -> Y -> X2. 基本上AugCGAN為我們提供了一個額外的變量,讓我們可以創(chuàng)建具有特定屬性的樣本。例如,如果我們在Y域中有鞋子的輪廓,我們可以生成X域中的樣本,鞋子的顏色是藍(lán)色,或橙色,或任何我們選擇的顏色。
如果你喜歡CycleGAN,但想要更多控制轉(zhuǎn)換過程,你會喜歡這篇論文的。
GAN動力學(xué)中一階逼近的局限
這是一篇主要通過簡單示例進(jìn)行論證的純理論論文。要點是解釋了多判別器更新的意義。這篇論文考慮了極端情況,展示了最優(yōu)判別器情形下良好的收斂性質(zhì)。但除此之外,目前而言大概沒什么從業(yè)者感興趣的內(nèi)容。
結(jié)語
這些就是ICML上關(guān)于生成對抗網(wǎng)絡(luò)的論文了。我希望這篇文章對你有幫助。我會在十二月份參加NIPS,如果你想要看到類似這篇的總結(jié),請告訴我。
感謝Karen Trippler和Mihai Ermaliuc的評論!
想要加入對話?歡迎在jakublangr.com上評論,或者發(fā)推給我(langrjakub)。我正在撰寫一本關(guān)于對抗生成網(wǎng)絡(luò)的書,這里有一些樣章:www.manning.com/books/gans-in-action 論智公眾號(ID: jqr_AI)后臺留言icml2018gan可獲取上述所有論文的打包下載地址。
-
GaN
+關(guān)注
關(guān)注
19文章
1974瀏覽量
74438 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8453瀏覽量
133152 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1210瀏覽量
24861
原文標(biāo)題:ICML2018對抗生成網(wǎng)絡(luò)論文評述
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
【mBot試用體驗】利用mBot制作的賽車游戲,可以利用陀螺儀改變小車的方向,動態(tài)跑道【結(jié)項】
能量收集利用在汽車上的應(yīng)用不同的來源
谷歌的Dataset Search開放至今,為什么還搜不到我的數(shù)據(jù)集?
請問可以利用“相位再同步”功能來實現(xiàn)多個ADF4351分別產(chǎn)生同頻信號嗎?
【0510活動】讓我們進(jìn)軍鴻蒙!
能量收集在汽車應(yīng)用中利用多種來源
![能量收集在汽車應(yīng)用中<b class='flag-5'>利用</b>多種<b class='flag-5'>來源</b>](https://file.elecfans.com/web2/M00/49/93/pYYBAGKhtGSAV0FyAAB8lHkAsi0108.png)
如何很容易地將數(shù)據(jù)共享為Kaggle數(shù)據(jù)集
![如何很容易地將<b class='flag-5'>數(shù)據(jù)</b>共享為Kaggle<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>](https://file.elecfans.com/web1/M00/55/D2/o4YBAFs12sCALf5DAAAE0tLWc1c750.png)
利用VR讓我們與大自然聯(lián)系,成功領(lǐng)略動物眼中的奇妙世界
DeepMind正在開發(fā)可以利用基因序列預(yù)測蛋白質(zhì)結(jié)構(gòu)的新AI工具
利用Python和PyTorch處理面向?qū)ο蟮?b class='flag-5'>數(shù)據(jù)集
為什么可以利用FSMC來使用外部RAM
利用 Python 和 PyTorch 處理面向?qū)ο蟮?b class='flag-5'>數(shù)據(jù)集(2)) :創(chuàng)建數(shù)據(jù)集對象
![<b class='flag-5'>利用</b> Python 和 PyTorch 處理面向?qū)ο蟮?b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>(2)) :創(chuàng)建<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>集</b>對象](https://file.elecfans.com/web2/M00/1F/62/poYBAGGYHoaALC2hAAKp5WYBQEk586.png)
評論