在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

將自注意力機(jī)制引入GAN,革新圖像合成方式

DPVg_AI_era ? 來(lái)源:未知 ? 作者:李倩 ? 2018-05-25 17:17 ? 次閱讀

圖像合成是計(jì)算機(jī)視覺(jué)中的一個(gè)重要問(wèn)題。谷歌大腦的Ian Goodfellow等人在他們的最新研究中提出“自注意力生成對(duì)抗網(wǎng)絡(luò)”(SAGAN),將自注意力機(jī)制引入到卷積GAN中,作為卷積的補(bǔ)充,在ImageNet多類(lèi)別圖像合成任務(wù)中取得了最優(yōu)的結(jié)果。

圖像合成(Image synthesis)是計(jì)算機(jī)視覺(jué)中的一個(gè)重要問(wèn)題。隨著生成對(duì)抗網(wǎng)絡(luò)(GAN)的出現(xiàn),這個(gè)方向取得了顯著進(jìn)展?;谏疃染矸e網(wǎng)絡(luò)的GAN尤其成功。但是,通過(guò)仔細(xì)檢查這些模型生成的樣本,可以觀察到,在ImageNet這類(lèi)的有許多圖像類(lèi)別的數(shù)據(jù)集上訓(xùn)練時(shí),卷積GAN合成的圖像不盡如人意。

針對(duì)這個(gè)問(wèn)題,谷歌大腦的Ian Goodfellow和Augustus Odena,以及羅格斯大學(xué)的Han Zhang和Dimitris Metaxas等人在他們的最新研究中提出“自注意力生成對(duì)抗網(wǎng)絡(luò)”(SAGAN),將自注意力機(jī)制(self-attention mechanism)引入到卷積GAN中,作為卷積的補(bǔ)充,取得了最優(yōu)的結(jié)果。

摘要

在這篇論文中,我們提出自注意力生成對(duì)抗網(wǎng)絡(luò)( Self-Attention Generative Adversarial Network ,SAGAN)。SAGAN允許對(duì)圖像生成任務(wù)進(jìn)行注意力驅(qū)動(dòng)、長(zhǎng)相關(guān)性的建模。傳統(tǒng)的卷積GAN生成的高分辨率細(xì)節(jié)僅作為在低分辨率特征圖上的空間局部點(diǎn)的函數(shù)。在SAGAN中,可以使用來(lái)自所有特征位置的線索來(lái)生成細(xì)節(jié)。此外,鑒別器可以檢查圖像的遠(yuǎn)端部分的高度詳細(xì)的特征彼此一致。此外,最近的研究表明,生成器條件會(huì)影響GAN的性能。利用這些發(fā)現(xiàn),我們將譜歸一化到GAN生成器中,并發(fā)現(xiàn)這改進(jìn)了訓(xùn)練動(dòng)態(tài)。我們提出的SAGAN達(dá)到了state-of-the-art的結(jié)果,將Inception score從當(dāng)前最高的36.8提高到52.52,并且在具有挑戰(zhàn)性的ImageNet數(shù)據(jù)集上將Frechet Inception distance從27.62降低到18.65。注意力層的可視化表明,生成器利用與對(duì)象形狀相對(duì)應(yīng)的鄰域,而不是固定形狀的局部區(qū)域。

SAGAN:將自注意力機(jī)制引入GAN

盡管最先進(jìn)的ImageNet GAN模型 [17] 擅長(zhǎng)合成幾乎沒(méi)有結(jié)構(gòu)性限制的圖像類(lèi)別(例如,海洋、天空和景觀類(lèi),它們的區(qū)別更多在于紋理而不是幾何結(jié)構(gòu)),但它無(wú)法捕獲在某些類(lèi)別中經(jīng)常出現(xiàn)的幾何模式或結(jié)構(gòu)模式(例如,狗通常有逼真的皮毛紋理,但沒(méi)有明確區(qū)分的腳)。

一種可能的解釋是,以前的模型嚴(yán)重依賴(lài)于卷積來(lái)建模不同圖像區(qū)域之間的依賴(lài)關(guān)系。由于卷積運(yùn)算符具有一個(gè)局部感受域,所以在經(jīng)過(guò)幾個(gè)卷積層之后,只能處理長(zhǎng)距離的相關(guān)性。

由于各種原因,這可能會(huì)阻止學(xué)習(xí)長(zhǎng)相關(guān)性(long-term dependencies):小的模型可能無(wú)法表示它們,優(yōu)化算法可能無(wú)法發(fā)現(xiàn)參數(shù)值,這些參數(shù)值仔細(xì)協(xié)調(diào)多個(gè)層,以捕獲這些相關(guān)性,并且這些參數(shù)化在統(tǒng)計(jì)學(xué)上可能相當(dāng)脆弱,當(dāng)應(yīng)用于以前未見(jiàn)過(guò)的輸入時(shí)容易失敗。增加卷積核的大小可以提高網(wǎng)絡(luò)的表征能力,但這樣做也會(huì)失去利用局部卷積結(jié)構(gòu)獲得的計(jì)算和統(tǒng)計(jì)效率。

另一方面,自注意力(Self-attention)可以更好地平衡模型的長(zhǎng)相關(guān)性和計(jì)算與統(tǒng)計(jì)效率。self-attention模塊以所有位置的特征加權(quán)和來(lái)計(jì)算響應(yīng),其中權(quán)重(或attention vectors)只以很小的計(jì)算成本來(lái)計(jì)算。

圖 1:我們提出的SAGAN通過(guò)利用圖像遠(yuǎn)端部分的互補(bǔ)特征來(lái)生成圖像,而不是固定形狀的局部區(qū)域,從而可以生成一致的對(duì)象/場(chǎng)景。圖中每一行的第一個(gè)圖像顯示了帶顏色編碼點(diǎn)的五個(gè)代表性查詢(xún)位置。其他五個(gè)圖像是針對(duì)這些查詢(xún)位置的 attention maps,其中對(duì)應(yīng)的顏色編碼的箭頭概括了最受關(guān)注的區(qū)域。

在這項(xiàng)工作中,我們提出了自注意力生成對(duì)抗網(wǎng)絡(luò)(SAGAN),它將自注意力機(jī)制(self-attention mechanism)引入到卷積GAN中。自注意力模塊(self-attention module)是對(duì)卷積的補(bǔ)充,有助于模擬跨越圖像區(qū)域的長(zhǎng)距離、多層的依賴(lài)關(guān)系。通過(guò)self-attention,生成器可以繪制圖像,所繪制圖像中每個(gè)位置的精細(xì)細(xì)節(jié)都與圖像遠(yuǎn)端的精細(xì)細(xì)節(jié)充分協(xié)調(diào)。此外,鑒別器還可以更準(zhǔn)確地對(duì)全局圖像結(jié)構(gòu)執(zhí)行復(fù)雜的幾何約束。

圖2:所提出的self-attention機(jī)制。?表示矩陣乘法,在每一行上執(zhí)行softmax操作。

除了self-attention之外,我們還將最近關(guān)于網(wǎng)絡(luò)調(diào)節(jié)(network conditioning)的見(jiàn)解與GAN的性能結(jié)合起來(lái)。A.Odena等人的研究[18]表明,調(diào)節(jié)良好的生成器往往表現(xiàn)更好。我們建議使用以前僅應(yīng)用于鑒別器的譜歸一化技術(shù)(spectral normalization)來(lái)加強(qiáng)GAN生成器器的調(diào)節(jié)。

我們?cè)贗mageNet數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),以驗(yàn)證所提出的self-attention機(jī)制和穩(wěn)定技術(shù)的有效性。SAGAN在圖像合成方面的表現(xiàn)遠(yuǎn)遠(yuǎn)超過(guò)了state-of-the-art的表現(xiàn),將此前報(bào)告的最高Inception score從36.8提高到52.52,將Fréchet初始距離(Fréchet Inception distance,F(xiàn)ID)從27.62降低到18.65。attention層的可視化顯示,生成器利用與對(duì)象形狀相對(duì)應(yīng)的區(qū)域,而不是固定形狀的局部區(qū)域。

ImageNet上的圖像合成實(shí)驗(yàn)

為了評(píng)價(jià)所提出的方法,我們?cè)贚SVRC 2012 (ImageNet)上數(shù)據(jù)集進(jìn)行了大量的實(shí)驗(yàn)。首先,我們對(duì)評(píng)估所提出的兩種穩(wěn)定GAN訓(xùn)練的技術(shù)進(jìn)行有效性實(shí)驗(yàn)。其次,對(duì)所提出的self-attention mechanism進(jìn)行了研究。最后,將SAGAN與其他state-of-the-art的圖像生成方法進(jìn)行了比較。

評(píng)估指標(biāo)

我們使用Inception score(IS)和Fréchet初始距離(FID)進(jìn)行定量評(píng)估。Inception score越高,表示圖像質(zhì)量越好。 FID是一個(gè)更加基于規(guī)則和綜合性的指標(biāo),并且在評(píng)估生成的樣本的真實(shí)性和變異性方面已被證明與人類(lèi)的評(píng)估更加一致。越低的FID值意味著合成數(shù)據(jù)分布與真實(shí)數(shù)據(jù)分布之間的距離更近。

圖3:基線模型與我們的模型的訓(xùn)練曲線,利用了我們提出的穩(wěn)定技術(shù)

表1:GAN的Self-Attention與Residual塊的比較。這些塊被添加到網(wǎng)絡(luò)的不同層。所有模型都經(jīng)過(guò)100萬(wàn)次迭代的訓(xùn)練,并報(bào)告最佳的Inception score(IS)和Fréchet初始距離(FID)。

圖4:基線模型和我們的模型隨機(jī)生成的128×128圖像樣本

圖5:attention maps的可視化。這些圖像都由SAGAN生成。

與state-of-the-art模型的比較

在ImageNet上,SAGAN與最先進(jìn)的GAN模型[19,17]進(jìn)行了比較。如表2所示,我們提出的SAGAN得到了Inception score和FID。Inception score方面,SAGAN將此前0最高的36.8提高到52.52;FID(18.65)也表明,SAGAN可以通過(guò)使用self-attention模塊對(duì)圖像區(qū)域之間的全局依賴(lài)關(guān)系進(jìn)行建模,從而更好地模擬原始圖像的分布。圖6展示了由SAGAN生成的一些示例圖像。

表2: 將所提出的SAGAN與最先進(jìn)GAN模型進(jìn)行比較,任務(wù)是ImageNet上的類(lèi)別條件圖像生成。

圖6:SAGAN 生成的不同類(lèi)別的128×128分辨率示例圖像。每行展示一個(gè)類(lèi)別的示例。

總結(jié)

在本研究中,我們提出自注意力生成對(duì)抗網(wǎng)絡(luò)(SAGAN),它將self-attention機(jī)制引入到GAN的框架。 self-attention 模塊在建模長(zhǎng)相關(guān)性( long-range dependencies)方面很有效。另外,我們證明了應(yīng)用于生成器的譜歸一化可以穩(wěn)定GAN的訓(xùn)練,并且TTUR加速了正則化鑒別器的訓(xùn)練。SAGAN在ImageNet的分類(lèi)條件圖像生成任務(wù)上達(dá)到最先進(jìn)的性能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1091

    瀏覽量

    40918
  • GaN
    GaN
    +關(guān)注

    關(guān)注

    19

    文章

    2138

    瀏覽量

    75821

原文標(biāo)題:Ian Goodfellow等提出自注意力GAN,ImageNet圖像合成獲最優(yōu)結(jié)果!

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    淺談自然語(yǔ)言處理中的注意力機(jī)制

    本文深入淺出地介紹了近些年的自然語(yǔ)言中的注意力機(jī)制包括從起源、變體到評(píng)價(jià)指標(biāo)方面。
    的頭像 發(fā)表于 01-25 16:51 ?6570次閱讀
    淺談自然語(yǔ)言處理中的<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>

    深度分析NLP中的注意力機(jī)制

    注意力機(jī)制越發(fā)頻繁的出現(xiàn)在文獻(xiàn)中,因此對(duì)注意力機(jī)制的學(xué)習(xí)、掌握與應(yīng)用顯得十分重要。本文便對(duì)注意力機(jī)制
    的頭像 發(fā)表于 02-17 09:18 ?4076次閱讀

    注意力機(jī)制的誕生、方法及幾種常見(jiàn)模型

    簡(jiǎn)而言之,深度學(xué)習(xí)中的注意力機(jī)制可以被廣義地定義為一個(gè)描述重要性的權(quán)重向量:通過(guò)這個(gè)權(quán)重向量為了預(yù)測(cè)或者推斷一個(gè)元素,比如圖像中的某個(gè)像素或句子中的某個(gè)單詞,我們使用注意力向量定量地估
    的頭像 發(fā)表于 03-12 09:49 ?4.2w次閱讀

    注意力機(jī)制或?qū)⑹俏磥?lái)機(jī)器學(xué)習(xí)的核心要素

    目前注意力機(jī)制已是深度學(xué)習(xí)里的大殺器,無(wú)論是圖像處理、語(yǔ)音識(shí)別還是自然語(yǔ)言處理的各種不同類(lèi)型的任務(wù)中,都很容易遇到注意力模型的身影。
    發(fā)表于 05-07 09:37 ?1406次閱讀

    基于注意力機(jī)制的深度學(xué)習(xí)模型AT-DPCNN

    情感分析是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要分支,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在文本情感分析方面取得了較好的效果,但其未充分提取文本信息中的關(guān)鍵情感信息。為此,建立一種基于注意力機(jī)制的深度學(xué)習(xí)模型AT-
    發(fā)表于 03-17 09:53 ?12次下載
    基于<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>的深度學(xué)習(xí)模型AT-DPCNN

    基于空間/通道注意力機(jī)制的化學(xué)結(jié)構(gòu)圖像識(shí)別方法

    基于傳統(tǒng)圖像處理技術(shù)與流水線方式的化學(xué)結(jié)構(gòu)圖像識(shí)別方法通常依賴(lài)于人工設(shè)計(jì)的特征,導(dǎo)致識(shí)別準(zhǔn)確率較低。針對(duì)該問(wèn)題,提岀一種基于空間注意力機(jī)制
    發(fā)表于 03-22 15:20 ?7次下載
    基于空間/通道<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>的化學(xué)結(jié)構(gòu)<b class='flag-5'>圖像</b>識(shí)別方法

    基于通道注意力機(jī)制的SSD目標(biāo)檢測(cè)算法

    為提升原始SSD算法的小目標(biāo)檢測(cè)精度及魯棒性,提出一種基于通道注意力機(jī)制的SSD目標(biāo)檢測(cè)算法。在原始SSD算法的基礎(chǔ)上對(duì)高層特征圖進(jìn)行全局池化操作,結(jié)合通道注意力機(jī)制增強(qiáng)高層特征圖的語(yǔ)
    發(fā)表于 03-25 11:04 ?20次下載

    結(jié)合注意力機(jī)制的跨域服裝檢索方法

    深度卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),引入注意力機(jī)制重新分配不同特征所占比重,增強(qiáng)表述服裝圖像的重要特征,抑制不重要特征:加入短連接模塊融合局部重要特征和整幅圖像
    發(fā)表于 05-12 14:19 ?2次下載

    基于注意力機(jī)制等的社交網(wǎng)絡(luò)熱度預(yù)測(cè)模型

    基于注意力機(jī)制等的社交網(wǎng)絡(luò)熱度預(yù)測(cè)模型
    發(fā)表于 06-07 15:12 ?14次下載

    基于多通道自注意力機(jī)制的電子病歷架構(gòu)

    基于多通道自注意力機(jī)制的電子病歷架構(gòu)
    發(fā)表于 06-24 16:19 ?75次下載

    基于注意力機(jī)制的跨域服裝檢索方法綜述

    基于注意力機(jī)制的跨域服裝檢索方法綜述
    發(fā)表于 06-27 10:33 ?2次下載

    基于注意力機(jī)制的新聞文本分類(lèi)模型

    基于注意力機(jī)制的新聞文本分類(lèi)模型
    發(fā)表于 06-27 15:32 ?30次下載

    基于非對(duì)稱(chēng)注意力機(jī)制殘差網(wǎng)絡(luò)的圖像檢測(cè)

    基于非對(duì)稱(chēng)注意力機(jī)制殘差網(wǎng)絡(luò)的圖像檢測(cè)
    發(fā)表于 07-05 15:29 ?9次下載

    計(jì)算機(jī)視覺(jué)中的注意力機(jī)制

    在自然語(yǔ)言處理、圖像識(shí)別及語(yǔ)音識(shí)別等各種不同類(lèi)型的機(jī)器學(xué)習(xí)任務(wù)中。注意力機(jī)制本質(zhì)上與人類(lèi)對(duì)外界事物的觀察機(jī)制相似。通常來(lái)說(shuō),人們?cè)谟^察外界事物的時(shí)候,首先會(huì)比較關(guān)注比較傾向于觀察事物
    發(fā)表于 05-22 09:46 ?1次下載
    計(jì)算機(jī)視覺(jué)中的<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>

    PyTorch教程11.4之Bahdanau注意力機(jī)制

    電子發(fā)燒友網(wǎng)站提供《PyTorch教程11.4之Bahdanau注意力機(jī)制.pdf》資料免費(fèi)下載
    發(fā)表于 06-05 15:11 ?0次下載
    PyTorch教程11.4之Bahdanau<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>
    主站蜘蛛池模板: 美女被免费网站在线视频九色 | 久久婷五月| 一级黄免费 | 一区二区三区国模大胆 | 丁香六月在线观看 | 久草3| 四虎在线免费播放 | 国产三级精品播放 | 女人张开双腿让男人桶完整 | 国模网站 | 亚洲精品乱码久久久久久蜜桃图片 | 天天操夜夜骑 | 日本一区二区在线视频 | 中文字幕亚洲一区婷婷 | 亚洲精品蜜桃久久久久久 | 日本免费a级片 | 国模大尺度酒店私拍视频拍拍 | 天堂在线中文字幕 | 添人人躁日日躁夜夜躁夜夜揉 | 熊出没之环球大冒险旧版免费观看 | 日本不卡视频一区二区 | 欧美色网在线 | 亚洲一区二区影视 | 国产资源在线免费观看 | 国内外精品免费视频 | 日本69sex护士wwxx | 在线观看日本亚洲一区 | 综合爱爱| 日本最色网站 | 性色欧美| 仙踪林欧美另类视频 | 222网站高清免费观看 | 啪啪网站免费看 | 亚洲68283精品人体 | 精品伊人久久香线蕉 | 午夜国产大片免费观看 | 亚洲国产日韩欧美在线as乱码 | 亚洲精品欧洲久久婷婷99 | 亚洲五月婷婷 | 天天躁天天狠天天透 | 亚洲www.|