編者按:《GANs in Action》作者Jakub Langr評(píng)述了在ICML 2018上發(fā)表的GAN論文,以及相應(yīng)報(bào)告。
鄭重聲明,我非常尊重研究人員在ICML上發(fā)表的所有驚人工作。我離他們的水平還差得遠(yuǎn),感謝他們?yōu)橥七M(jìn)這一領(lǐng)域研究所做的貢獻(xiàn)!
參加ICML總體上是一次很棒的體驗(yàn)。不過(guò)本文的主題不是我的想法、印象、體驗(yàn)。整個(gè)工業(yè)界正緩慢地滑入學(xué)術(shù)會(huì)議,我覺(jué)得我也許可以更進(jìn)一步,總結(jié)一下從業(yè)者最感興趣的ICML上GAN方面的成果。
這意味著,在我看來(lái)無(wú)法為最終目標(biāo)主要不是發(fā)表論文的人所應(yīng)用的那些學(xué)術(shù)貢獻(xiàn),我的評(píng)價(jià)會(huì)打上一些折扣。這也意味著,我會(huì)使用更平易近人的語(yǔ)言,不會(huì)深入論文的理論或技術(shù)細(xì)節(jié)。另外,這還意味著,我會(huì)給出一些個(gè)人的意見(jiàn)和想法,其中一些意見(jiàn)和想法,你可能并不贊同。我希望這篇文章對(duì)機(jī)器學(xué)習(xí)從業(yè)者有用,特別是那些初入這一領(lǐng)域的人。我在準(zhǔn)備這次會(huì)議的時(shí)候大概讀了50篇這方面的論文,所以我想為他們提供一些上下文。
本文中的解釋常常是簡(jiǎn)短而粗糙的,另外不是每篇論文的主題都是GAN。
我的公司Mudano提供了培訓(xùn)的預(yù)算,我選擇把部分預(yù)算用于參加ICML,機(jī)器學(xué)習(xí)的三大頂會(huì)之一。這是一次令我增廣見(jiàn)聞的獨(dú)特體驗(yàn)。為了更好地總結(jié)參會(huì)的收獲,我決定記錄大部分接觸到的論文。本文按照ICML的議程排序。我沒(méi)有列入周六、周日的內(nèi)容,因?yàn)槟莾商齑蟛糠质莣orkshop。(我參加了可重現(xiàn)機(jī)器學(xué)習(xí)的workshop,我希望大多數(shù)機(jī)器學(xué)習(xí)從業(yè)者至少有些熟悉這一主題。如果大家對(duì)此感興趣,我以后會(huì)寫(xiě)文章介紹。)
11日,周三
RadialGAN
GAN的優(yōu)勢(shì)部分在于半監(jiān)督學(xué)習(xí)和數(shù)據(jù)增強(qiáng)。基本上,RadialGAN讓我們可以利用多個(gè)不同來(lái)源的數(shù)據(jù)集,通常這能帶來(lái)更好的表現(xiàn),即使在某些數(shù)據(jù)集質(zhì)量不高或者和手頭任務(wù)關(guān)系不密切的情況下也是如此。RadialGAN首先將數(shù)據(jù)集轉(zhuǎn)換為共享的潛空間,接著再將潛空間轉(zhuǎn)換為手頭任務(wù)的目標(biāo)域。
我個(gè)人非常喜歡這篇論文。這篇論文在工業(yè)界有很大的潛力。報(bào)告很清晰。我的一個(gè)同事很為RadialGAN的潛力激動(dòng)。如果能將RadialGAN應(yīng)用到你手頭的問(wèn)題上,相信效果會(huì)大為不同。
ILVM
基本上,ILVM通過(guò)人工介入的主動(dòng)學(xué)習(xí)方法確保我們能以更容易讓人理解的方式解釋潛空間。雖然有潛在的降低精確度的風(fēng)險(xiǎn),但能讓我們說(shuō)明潛空間的哪個(gè)維度影響哪個(gè)性質(zhì)。
聽(tīng)起來(lái)很有趣,因?yàn)橥ǔ=忉屒宄摽臻g和生成樣本之間的變換需要大費(fèi)周折。報(bào)告的表述不是非常清晰。
哪種GAN的訓(xùn)練方法真能收斂?
Lars等發(fā)表的這篇論文通過(guò)在GAN的訓(xùn)練過(guò)程中施加特定類(lèi)別的梯度懲罰,在較老的架構(gòu)上取得了當(dāng)前最先進(jìn)的表現(xiàn)(在該項(xiàng)基準(zhǔn)測(cè)試上超過(guò)了之前最佳的學(xué)術(shù)成果)。相關(guān)代碼見(jiàn)GitHub:LMescheder/GAN_stability
令人印象相當(dāng)深刻的成績(jī)。所用的技術(shù)比較復(fù)雜,但花一些時(shí)間理解這一技術(shù)應(yīng)該是值得的。之前有一些類(lèi)似的研究,但這次取得的結(jié)果讓這一技術(shù)的價(jià)值不言而喻。在無(wú)需漸進(jìn)增長(zhǎng)的情況下取得PGGAN等級(jí)的結(jié)果!
氣平方GAN
氣平方GAN結(jié)合了GAN的三種不同思路:
中央的x2-GAN即氣平方GAN
這篇論文的理論價(jià)值大概很高,但對(duì)從業(yè)者而言,實(shí)際用途看起來(lái)多少比較有限。
基于分類(lèi)的GAN分布協(xié)方差偏移研究
Santurkar等的這項(xiàng)檢測(cè)模型崩塌(mode collapse)的研究很酷。學(xué)術(shù)界常常需要嘗試檢測(cè)訓(xùn)練中出現(xiàn)的問(wèn)題,在這方面這篇論文意義很大。
我覺(jué)得為評(píng)估訓(xùn)練質(zhì)量提供一個(gè)一致的基準(zhǔn)真是功莫大焉。不過(guò)我更偏愛(ài)其他測(cè)度。但是這項(xiàng)研究提出的方法大概可以作為測(cè)度集成的一部分使用。
NetGAN
挺有趣的工作,展示了GAN可以應(yīng)用于生成非常復(fù)雜的圖。NetGAN取得了當(dāng)前最先進(jìn)的表現(xiàn)(據(jù)鏈接預(yù)測(cè)精確度)。
12日,周四
幾何學(xué)評(píng)分
這項(xiàng)工作提出了一種基于拓?fù)浞治鰳?gòu)建的通用測(cè)度,可以評(píng)估成功覆蓋了多少比例的原數(shù)據(jù)集,并通過(guò)逼近計(jì)算生成數(shù)據(jù)集的多樣性。
實(shí)際上我對(duì)此感到非常興奮,因?yàn)樗屛覀兛梢栽u(píng)估任何領(lǐng)域的GAN并檢測(cè)模型塌縮。在這項(xiàng)工作之前,我們完全沒(méi)有通用的評(píng)估方法。也許以后有一天,我們甚至能看到評(píng)估質(zhì)量的通用方法。
GLO
GLO與典型的GAN設(shè)置不大一樣,它的目標(biāo)是創(chuàng)建能夠生成更好樣本的模型。GLO優(yōu)化生成網(wǎng)絡(luò)的潛空間,聚焦于模型塌縮問(wèn)題和生成不一樣但足夠類(lèi)似的樣本。
我對(duì)這篇論文感覺(jué)有點(diǎn)復(fù)雜。一方面,我覺(jué)得這篇論文寫(xiě)得主觀性很強(qiáng)——在學(xué)術(shù)界這可不同尋常——我不同意其中的很多東西。另一方面,在ICML期間的非正式討論事實(shí)上非常好,提供了很多信息。在討論時(shí),有一個(gè)研究者提出了一個(gè)有趣的觀點(diǎn),模型塌縮正是GAN奏效的原因。這是一則迷人的斷言,我很想知道是不是果真如此。關(guān)于這篇論文還有一樁趣聞,這篇論文被ICLR拒了,作者們重新在ICML上發(fā)表了。
LCC
LCC試圖通過(guò)局部坐標(biāo)編碼提升GAN的表現(xiàn),這讓潛空間更復(fù)雜了。報(bào)告的表述不是非常清晰,但主要思想是探索流形假說(shuō)——某個(gè)低維潛空間和復(fù)雜流形(例如,圖像)間存在一個(gè)映射。所有GAN歸根打底都取決于這一假說(shuō)。但如果你思考這個(gè)映射的話(huà),它看起來(lái)顯得有些奇怪,你可以在這么低維的空間表示所有圖像。由于某種原因,這篇論文沒(méi)有對(duì)比當(dāng)前最先進(jìn)方法。
3D點(diǎn)云的學(xué)習(xí)表示和生成式模型
3D點(diǎn)云,誰(shuí)不愛(ài)?太酷了。在這篇論文中,作者創(chuàng)建了一個(gè)更為強(qiáng)大的模型以生成一般物體的3D點(diǎn)云。盡管仍有許多需要改進(jìn)的地方,總的來(lái)說(shuō)效果很贊。
對(duì)抗學(xué)習(xí)圖像到圖像轉(zhuǎn)換的理論分析
這篇論文分析了GAN的配對(duì)轉(zhuǎn)換,主張配對(duì)圖像轉(zhuǎn)換的損失基本上由兩部分組成。身份損失(identity loss)確保圖像是正確的,而對(duì)抗損失(adversarial loss)確保圖像是清晰的。
這是一項(xiàng)有趣的理論工作,但目前而言從業(yè)者大概用不到。同時(shí)論文中一張圖也沒(méi)有,所以我這里附上了招貼畫(huà)上的圖像(不好意思,拍糊了!)。
復(fù)合函數(shù)梯度
這篇論文引入了一種看起來(lái)有理論支持的更為復(fù)雜的訓(xùn)練算法(漸進(jìn)式復(fù)合函數(shù)梯度,ICFG),接著又創(chuàng)建了一個(gè)逼近ICFG的算法版本xICFG,在訓(xùn)練過(guò)程中加入了if語(yǔ)句,在我看來(lái)感覺(jué)像是一種ad-hoc。最終結(jié)果超過(guò)了當(dāng)前最先進(jìn)的水平,但我一般不太喜歡增加這么多復(fù)雜度的方法。
調(diào)和對(duì)抗網(wǎng)絡(luò)
這篇論文背后的高層想法很有趣。和PGGAN類(lèi)似,作者也認(rèn)為GAN的問(wèn)題在于剛開(kāi)始面對(duì)的任務(wù)太難了。因此作者轉(zhuǎn)而創(chuàng)建了一個(gè)網(wǎng)絡(luò),給圖像加上了一點(diǎn)變形,讓生成器的任務(wù)輕松一點(diǎn)。采用這一方法后,表現(xiàn)超過(guò)了當(dāng)前最先進(jìn)水平。
RFGAN
基本上,這篇論文連接了生成圖像的自編碼版本,傳給判別器作為參考。招貼畫(huà)極為清晰地描述了這一架構(gòu),只可惜我的手機(jī)好像丟失了相關(guān)照片。
所得結(jié)果超過(guò)了當(dāng)前最先進(jìn)水平,但超得不多,所以我不太確定這是否可以算是一項(xiàng)突破。
計(jì)算精確Wasserstein距離
這篇論文引入了線(xiàn)性編程以可控地計(jì)算精確的Wasserstein距離,并據(jù)此改善訓(xùn)練。Wasserstein距離的問(wèn)題在于,即使簡(jiǎn)單的點(diǎn)云也會(huì)帶來(lái)組合性的復(fù)雜度,使得精確距離的計(jì)算變得相當(dāng)復(fù)雜。這篇論文做到了這一點(diǎn),并且戰(zhàn)勝了當(dāng)前最先進(jìn)的模型。
論文中用于基準(zhǔn)測(cè)試的數(shù)據(jù)集既簡(jiǎn)單又有限(MNIST、CIFAR-10),所以我很想知道這一方法在Celeb-A HQ和ImageNet-1000這樣的數(shù)據(jù)集上表現(xiàn)如何。
Jacobian clamping
和其他一些ICML上的論文一樣,我老早就讀過(guò)這篇論文,但作者們?cè)谡匈N畫(huà)上非常出色地簡(jiǎn)要總結(jié)了結(jié)果。基本上,他們使用Jacobian clamping控制生成器更新從而達(dá)成穩(wěn)定得多的訓(xùn)練。雖然表現(xiàn)沒(méi)有明顯提升,但穩(wěn)定性方面的提升表明了這一技術(shù)的價(jià)值。
作為從業(yè)者,如果你碰到GAN穩(wěn)定性的問(wèn)題,這是值得嘗試的論文。
GAIN
這也許是從業(yè)者最感興趣的論文之一,因?yàn)樗幚淼氖俏覀兘?jīng)常碰到的問(wèn)題——缺失數(shù)據(jù)。它創(chuàng)建了帶有提示機(jī)制的GAN配置,以推斷匹配分布的缺失值。我們知道GAN很擅長(zhǎng)創(chuàng)建生成式分布。提示機(jī)制的加入很有必要,否則這一問(wèn)題對(duì)判別器而言太難了——部分缺失數(shù)據(jù)和真實(shí)數(shù)據(jù)有太多合理的排列組合,沒(méi)有提示機(jī)制問(wèn)題很快會(huì)失控。
我已經(jīng)給一些同事安利過(guò)這篇論文。
基于受限查詢(xún)和信息的黑盒對(duì)抗攻擊
這是為數(shù)不多的真實(shí)對(duì)抗攻擊論文。技術(shù)上說(shuō),其中并沒(méi)有涉及GAN或者生成式建模——我猜除了擾動(dòng)的部分涉及一點(diǎn)——但這是一篇以非常有趣的方式進(jìn)行真實(shí)對(duì)抗攻擊的論文。
我仍然認(rèn)為深度學(xué)習(xí)模型還沒(méi)有普及到可以讓這一對(duì)抗攻擊造成任何實(shí)際傷害,但這篇論文涉及到了實(shí)際的問(wèn)題。
一等GAN
這篇論文背后的思路是在WGAN-GP之類(lèi)的梯度懲罰的情形下,與其優(yōu)化WGAN損失接著加入懲罰,不如直接優(yōu)化帶有懲罰的損失。作者們說(shuō),在一些病態(tài)情形下,優(yōu)化損失接著加入懲罰會(huì)讓生成分布不那么接近目標(biāo)分布。在招貼畫(huà)周?chē)腥耍ú皇俏遥?xiě)了一些非正式的質(zhì)疑和證明,但我可不會(huì)拿這些去逼問(wèn)作者們的,哈哈哈。
SPIRAL
DeepMind的這項(xiàng)工作使用GAN生成能夠控制筆刷的程序,可以學(xué)習(xí)繪制任意風(fēng)格的作品。
MAGAN
好吧,我現(xiàn)在相當(dāng)確定MAGAN是流形對(duì)齊GAN(Manifold Alignment GAN)的簡(jiǎn)稱(chēng),雖然報(bào)告的時(shí)候從來(lái)沒(méi)提到這點(diǎn)。但當(dāng)我第一次見(jiàn)到一個(gè)美國(guó)人報(bào)告這樣一篇論文,我還以為這個(gè)名稱(chēng)有什么政治寓意呢,哈哈。(譯者注,作者這里應(yīng)該是聯(lián)想到了川普的口號(hào)Make America Great Again)。基本上,MAGAN通過(guò)添加對(duì)應(yīng)損失確保兩個(gè)流形總是一致對(duì)應(yīng)的(而不是像其他算法中那樣隨機(jī)對(duì)應(yīng))。
有意思的珍品。在報(bào)告之后,有人“提問(wèn)”,聲稱(chēng)上一屆NIPS已經(jīng)有一篇論文做的是一模一樣的事情。作者不知道那篇論文。你怎么看?
時(shí)刻到事件的對(duì)抗建模
這篇論文和GAIN的領(lǐng)域類(lèi)似,只不過(guò)聚焦于時(shí)序數(shù)據(jù),并且大致可以得到更好的特定時(shí)間的時(shí)刻分布的概率分布(基本能夠自動(dòng)推斷)——例如醫(yī)院中的并發(fā)癥。
對(duì)處理時(shí)序數(shù)據(jù)的人而言,這是篇很有用的論文。
CyCADA
這篇論文應(yīng)對(duì)的是大量從業(yè)者在GAN上反復(fù)碰到的問(wèn)題:我們的模型沒(méi)有概括性。我們經(jīng)常碰到這樣的事情,部署在ImageNet(打個(gè)比方)上訓(xùn)練的模型,然后發(fā)現(xiàn)它的表現(xiàn)很糟糕。這只是因?yàn)椋词怪豢紤]ImageNet上的分類(lèi),真實(shí)世界也比ImageNet復(fù)雜得多。CyCADA擴(kuò)展了CycleGAN,基本上可以在實(shí)現(xiàn)領(lǐng)域到領(lǐng)域的變換時(shí)保證正確語(yǔ)義。所以CyCADA具有應(yīng)用于自動(dòng)駕駛汽車(chē)之類(lèi)的場(chǎng)景的潛力,可以在安全、可伸縮的計(jì)算機(jī)生成環(huán)境中創(chuàng)建自動(dòng)駕駛汽車(chē),接著轉(zhuǎn)換機(jī)器學(xué)習(xí)系統(tǒng)至真實(shí)世界。
真的很有趣!絕對(duì)值得一試。
AIQN
技術(shù)上說(shuō),這篇論文并不涉及GAN。AIQN“不過(guò)”是一個(gè)自回歸模型,但它能夠生成和當(dāng)前最先進(jìn)的GAN的水平相當(dāng)?shù)慕Y(jié)果。真的很令人印象深刻,但和所有自回歸模型一樣,這個(gè)設(shè)定在放大上很成問(wèn)題。報(bào)告之后,作者提出可以使用自動(dòng)編碼器來(lái)放大圖像,但這又帶來(lái)了一堆新的挑戰(zhàn)。
這是一個(gè)有趣的方法,但有人做過(guò)類(lèi)似的工作(雖然生成圖像質(zhì)量不如這項(xiàng)工作好),這些工作都沒(méi)能跨過(guò)32×32的像素限制,AIQN也是一樣。很多人嘗試過(guò),但都沒(méi)能克服這一限制。除非能突破限制,否則我們不太確定這類(lèi)方法是否真能放大;注意GAN已經(jīng)進(jìn)入1024×1024的時(shí)代。
M-BGAN
不同于常規(guī)的GAN,M-BGAN使用真實(shí)數(shù)據(jù)和合成數(shù)據(jù)混合的batch,進(jìn)一步提升判別器的能力。正如作者們?cè)诳偨Y(jié)部分所說(shuō):“一個(gè)簡(jiǎn)單的架構(gòu)技巧使其能夠可證實(shí)地復(fù)原所有作為無(wú)序集合的batch的功能。”
我真心喜歡這篇論文,因?yàn)樗且粋€(gè)優(yōu)雅的想法,同時(shí)總結(jié)部分很好地總結(jié)了這篇論文。讓我們拭目以待,看看這是否會(huì)成為占據(jù)統(tǒng)治地位的框架。不過(guò)我覺(jué)得作者們引用其他架構(gòu)的方式有點(diǎn)奇怪(全部引用同一篇論文)。
JointGAN
這是一個(gè)類(lèi)似CycleGAN的架構(gòu),不過(guò)CycleGAN僅僅推斷條件分布,而JointGAN聯(lián)合學(xué)習(xí)每個(gè)域的邊緣概率分布。剛開(kāi)始,它通過(guò)噪聲生成X,接著以X為條件基于邊緣概率分布生成Y。
我發(fā)現(xiàn)報(bào)告有點(diǎn)含糊,但結(jié)果看起來(lái)真是很有趣。生成的文本看起來(lái)真是令人印象深刻,不過(guò)接著作者說(shuō)這實(shí)際上是由一個(gè)自動(dòng)編碼器從潛空間生成的文本,而這個(gè)自動(dòng)編碼器是由GAN生成的。
AugCGAN
AugCGAN是增強(qiáng)CycleGAN(Augmented CycleGAN)的簡(jiǎn)稱(chēng)。這真是一個(gè)非常酷的CycleGAN擴(kuò)展。和標(biāo)準(zhǔn)形式的CycleGAN相比,AugCGAN在第一次和第二次生成時(shí)插入了潛空間。CycleGAN的循環(huán)一致性損失(Cycle-consistency loss)是通過(guò)diff(X1, X2)衡量的,其中X1 -> Y -> X2. 基本上AugCGAN為我們提供了一個(gè)額外的變量,讓我們可以創(chuàng)建具有特定屬性的樣本。例如,如果我們?cè)赮域中有鞋子的輪廓,我們可以生成X域中的樣本,鞋子的顏色是藍(lán)色,或橙色,或任何我們選擇的顏色。
如果你喜歡CycleGAN,但想要更多控制轉(zhuǎn)換過(guò)程,你會(huì)喜歡這篇論文的。
GAN動(dòng)力學(xué)中一階逼近的局限
這是一篇主要通過(guò)簡(jiǎn)單示例進(jìn)行論證的純理論論文。要點(diǎn)是解釋了多判別器更新的意義。這篇論文考慮了極端情況,展示了最優(yōu)判別器情形下良好的收斂性質(zhì)。但除此之外,目前而言大概沒(méi)什么從業(yè)者感興趣的內(nèi)容。
結(jié)語(yǔ)
這些就是ICML上關(guān)于生成對(duì)抗網(wǎng)絡(luò)的論文了。我希望這篇文章對(duì)你有幫助。我會(huì)在十二月份參加NIPS,如果你想要看到類(lèi)似這篇的總結(jié),請(qǐng)告訴我。
感謝Karen Trippler和Mihai Ermaliuc的評(píng)論!
想要加入對(duì)話(huà)?歡迎在jakublangr.com上評(píng)論,或者發(fā)推給我(langrjakub)。我正在撰寫(xiě)一本關(guān)于對(duì)抗生成網(wǎng)絡(luò)的書(shū),這里有一些樣章:www.manning.com/books/gans-in-action 論智公眾號(hào)(ID: jqr_AI)后臺(tái)留言icml2018gan可獲取上述所有論文的打包下載地址。
-
GaN
+關(guān)注
關(guān)注
19文章
2185瀏覽量
76316 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8496瀏覽量
134207 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25312
原文標(biāo)題:ICML2018對(duì)抗生成網(wǎng)絡(luò)論文評(píng)述
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
【mBot試用體驗(yàn)】利用mBot制作的賽車(chē)游戲,可以利用陀螺儀改變小車(chē)的方向,動(dòng)態(tài)跑道【結(jié)項(xiàng)】
能量收集利用在汽車(chē)上的應(yīng)用不同的來(lái)源
谷歌的Dataset Search開(kāi)放至今,為什么還搜不到我的數(shù)據(jù)集?
請(qǐng)問(wèn)可以利用“相位再同步”功能來(lái)實(shí)現(xiàn)多個(gè)ADF4351分別產(chǎn)生同頻信號(hào)嗎?
請(qǐng)問(wèn)labwindows可以利用socket實(shí)現(xiàn)通信嘛
【0510活動(dòng)】讓我們進(jìn)軍鴻蒙!
能量收集在汽車(chē)應(yīng)用中利用多種來(lái)源

如何很容易地將數(shù)據(jù)共享為Kaggle數(shù)據(jù)集

利用VR讓我們與大自然聯(lián)系,成功領(lǐng)略動(dòng)物眼中的奇妙世界
DeepMind正在開(kāi)發(fā)可以利用基因序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的新AI工具
利用Python和PyTorch處理面向?qū)ο蟮?b class='flag-5'>數(shù)據(jù)集
為什么可以利用FSMC來(lái)使用外部RAM
利用 Python 和 PyTorch 處理面向?qū)ο蟮?b class='flag-5'>數(shù)據(jù)集(2)) :創(chuàng)建數(shù)據(jù)集對(duì)象

評(píng)論