在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AttnGAN可以生成任意圖像,從普通的田園風(fēng)光到抽象的場(chǎng)景

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-08-24 09:01 ? 次閱讀

機(jī)器學(xué)習(xí)發(fā)展至今,我們看到很多AI模型經(jīng)過(guò)大量數(shù)據(jù)能畫畫、能作曲。但是現(xiàn)在一個(gè)“神奇”的網(wǎng)站可以通過(guò)你的文字生成意想不到的圖像。事情還要從大半年前的一篇論文說(shuō)起。

在今年一月份發(fā)表的一篇論文中,微軟研究院的實(shí)習(xí)生們訓(xùn)練了一個(gè)機(jī)器學(xué)習(xí)算法,稱為AttnGAN。這是GAN的一種變體,可以根據(jù)寫下的文字生成圖像,圖像質(zhì)量是之前技術(shù)生成的圖像質(zhì)量的三倍。

這項(xiàng)技術(shù)可以生成任意圖像,從普通的田園風(fēng)光到抽象的場(chǎng)景,每幅圖都能將文字描述詳細(xì)地表示出來(lái)。

論文簡(jiǎn)介

最近很多文本生成圖像的方法都是基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的,常用方法是將完整的文本描述編寫進(jìn)整個(gè)句子向量中作為圖片生成的條件。雖然已經(jīng)能生成質(zhì)量不錯(cuò)的圖像了,但是由于句子向量缺少在詞語(yǔ)層面上的微調(diào)信息,GAN無(wú)法生成更高質(zhì)量的圖像。這一問題在生成復(fù)雜場(chǎng)景時(shí)更嚴(yán)重。

為了解決這一問題,作者提出了注意力生成對(duì)抗網(wǎng)絡(luò)(AttnGAN),用注意力驅(qū)動(dòng)、多階段的方法對(duì)文本生成圖像的問題進(jìn)行微調(diào)。AttnGAN的整體結(jié)構(gòu)如圖:

模型有兩個(gè)創(chuàng)新元素。首先是注意力生成網(wǎng)絡(luò),其中的注意力機(jī)制是通過(guò)觀察與該區(qū)域最相關(guān)的文字,生成器畫出圖像的不同部分。

更具體地說(shuō),除了將自然語(yǔ)言描述編碼到全局句子向量中,句中的每個(gè)單詞同樣有對(duì)應(yīng)的向量。在第一階段,生成網(wǎng)絡(luò)利用全局句子向量生成一個(gè)低分辨率的圖像。接著,它會(huì)通過(guò)注意力層用每個(gè)區(qū)域的圖片向量查詢?cè)~向量,從而形成一個(gè)詞-語(yǔ)境向量。之后,它會(huì)將區(qū)域圖像向量和對(duì)應(yīng)的詞-語(yǔ)境向量相結(jié)合,形成一個(gè)多模態(tài)的語(yǔ)境向量。這就能夠在各個(gè)階段生成細(xì)節(jié)更豐富的高分辨率圖像。

該結(jié)構(gòu)中的另一個(gè)重要組成部分是深度注意力多模態(tài)相似模型(DAMSM)。由于有注意力機(jī)制,DAMSM可以計(jì)算生成圖像和句子之間的相似性。所以,DAMSM對(duì)訓(xùn)練生成器提供了額外的調(diào)整損失函數(shù)。

模型試驗(yàn)

與此前的方法相同,這篇論文提出的方法也在CUB和COCO兩個(gè)數(shù)據(jù)集上測(cè)試。最終訓(xùn)練的結(jié)果如下:

每個(gè)場(chǎng)景的第一張圖片都是AttnGAN的第一階段(G0),僅僅描繪出了場(chǎng)景的原始輪廓,圖像分辨率很低。基于詞向量,接下來(lái)的兩個(gè)階段(G1和G2)學(xué)習(xí)糾正前面的結(jié)果。

在CUB數(shù)據(jù)集上的生成結(jié)果

經(jīng)過(guò)COCO數(shù)據(jù)集訓(xùn)練的模型生成的結(jié)果,圖中的描述幾乎是不可能在現(xiàn)實(shí)中出現(xiàn)的

奇怪的方向

總的來(lái)說(shuō),AttnGAN的表現(xiàn)還是不錯(cuò)的。但是國(guó)外一些研究者逐漸找到了新的玩法。研究者Cristóbal Valenzuela根據(jù)論文搭建了一個(gè)網(wǎng)站,用戶可以嘗試AttnGAN,但不同的是,訓(xùn)練數(shù)據(jù)換成了更大的數(shù)據(jù)集。機(jī)器學(xué)習(xí)愛好者Janelle Shane在博客中寫道:“當(dāng)把這個(gè)算法在另一個(gè)更大的、內(nèi)容更多樣的數(shù)據(jù)集上訓(xùn)練后,生成的圖片難以符合文字描述(并且變得非常奇怪)。”例如下面這個(gè)例子,同樣的一句話,用原始模型生成的圖片是這樣的:

然而換了訓(xùn)練數(shù)據(jù)集后:

這是……什么?由于在更大的數(shù)據(jù)集上訓(xùn)練過(guò),所以當(dāng)GAN要畫出我要求的內(nèi)容時(shí),它要搜索的圖像就更多,問題也變得廣泛。不僅僅在小鳥的生成上有限制,在生成人像上也會(huì)出現(xiàn)bug,例如下圖:

這個(gè)表現(xiàn)得就很糟了,根本分不清哪里是人臉。其他類似的還有很多,完全就是超現(xiàn)實(shí)主義作品。

Janelle Shane表示:“這個(gè)demo非常有趣,它也體現(xiàn)了目前先進(jìn)的圖像識(shí)別算法是如何理解圖像和文字的。它們?nèi)绾卫斫狻贰颉祟悺吭?D圖像中,算法看到的人指向前方和側(cè)面是完全不同的。”

對(duì)于這一結(jié)果,AttnGAN論文的作者Tao Xu也給予了回復(fù)。Xu目前是美國(guó)理海大學(xué)一名研究生,她認(rèn)為這是對(duì)論文結(jié)果的重要改進(jìn):

“隨著深度學(xué)習(xí)的快速發(fā)展,計(jì)算機(jī)視覺系統(tǒng)非常強(qiáng)大。例如它們可以從醫(yī)學(xué)影像中診斷疾病、在自動(dòng)駕駛系統(tǒng)中定位行人和汽車。但是,我們?nèi)匀徊荒苷J(rèn)為這些系統(tǒng)完全理解了它們所看到的東西。因?yàn)椋绻麢C(jī)器真的擁有了智慧,它們不會(huì)僅識(shí)別圖像,而是可以生成圖像。

我們的AttnGAN將注意力機(jī)制和生成對(duì)抗網(wǎng)絡(luò)結(jié)合了起來(lái),大大提高了文本生成圖像的模型性能。由于注意力是人類特有的概念,我們的AttnGAN就能學(xué)習(xí)這種”智慧“,像人類一樣畫畫,即注意相關(guān)詞語(yǔ)以及相關(guān)圖像區(qū)域。

雖然AttnGAN比之前的文本到圖像的模型表現(xiàn)得更好,但是生成多種“現(xiàn)實(shí)畫風(fēng)”的物體對(duì)整個(gè)領(lǐng)域還是待解決的問題。我們希望未來(lái)在這一方向進(jìn)行更多研究。”

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:雖然很驚悚,但這個(gè)AI靈魂畫手真的很努力了

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于擴(kuò)散模型的圖像生成過(guò)程

    近年來(lái),擴(kuò)散模型在文本圖像生成方面取得了巨大的成功,實(shí)現(xiàn)了更高圖像生成質(zhì)量,提高了推理性能,也可以
    的頭像 發(fā)表于 07-17 11:00 ?3466次閱讀
    基于擴(kuò)散模型的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>過(guò)程

    HarmonyOS NEXT意圖框架習(xí)慣推薦一場(chǎng)景說(shuō)明

    意圖。 本文以“音樂播放”意圖為例,詳細(xì)講解意圖接入與開發(fā)全過(guò)程。 二、音樂播放開發(fā) 以“音樂播放”為例,意圖注冊(cè)、
    發(fā)表于 06-18 15:06

    六月,帶你品味合心鎮(zhèn)的合心瓜,享受田園采摘生活

    六月的綠園熱情似火,六月的合心瓜果飄香,在這喜人的季節(jié)里,迎來(lái)了又一次“瓜熟蒂落”。合心鎮(zhèn)地處上風(fēng)上水,是綠園區(qū)農(nóng)業(yè)發(fā)展主戰(zhàn)場(chǎng),是長(zhǎng)春市現(xiàn)代都市農(nóng)業(yè)示范區(qū)。這里有美麗的田園風(fēng)光、有淳樸的民風(fēng)民俗,有
    發(fā)表于 06-21 10:57

    點(diǎn)陣式液晶任意圖片顯示的實(shí)現(xiàn)

    點(diǎn)陣式液晶任意圖片顯示的實(shí)現(xiàn) 液晶顯示器(liquid crystal display,lcd )具有功耗低、體積小、質(zhì)量輕、超薄和可編程驅(qū)動(dòng)等其他顯示無(wú)法比擬的優(yōu)點(diǎn),不
    發(fā)表于 12-14 14:29 ?1938次閱讀
    點(diǎn)陣式液晶<b class='flag-5'>任意圖</b>片顯示的實(shí)現(xiàn)

    MAX4455 任意圖形隨屏顯示視頻發(fā)生器

    MAX4455 任意圖形隨屏顯示視頻發(fā)生器   MAX4455是一款8通道的任意圖形OSD視頻發(fā)生器,可以任意灰度級(jí)位圖嵌入
    發(fā)表于 12-26 08:15 ?1217次閱讀

    紅外場(chǎng)景仿真在導(dǎo)引頭圖像實(shí)時(shí)生成中的應(yīng)用

    描述了利用Vega Prime生成紅外場(chǎng)景的方法,針對(duì)該方法在成像制導(dǎo)仿真系統(tǒng)應(yīng)用中出現(xiàn)的問題進(jìn)行了討論。介紹了地形場(chǎng)景模型的建立方法;分析了制導(dǎo)仿真圖像
    發(fā)表于 05-19 18:25 ?0次下載
    紅外<b class='flag-5'>場(chǎng)景</b>仿真在導(dǎo)引頭<b class='flag-5'>圖像</b>實(shí)時(shí)<b class='flag-5'>生成</b>中的應(yīng)用

    基于形式概念分析的圖像場(chǎng)景語(yǔ)義標(biāo)注模型

    生成有效表示圖像場(chǎng)景語(yǔ)義的視覺詞典,提高場(chǎng)景語(yǔ)義標(biāo)注性能,提出一種基于形式概念分析( FCA)的圖像場(chǎng)
    發(fā)表于 01-12 15:49 ?1次下載
    基于形式概念分析的<b class='flag-5'>圖像</b><b class='flag-5'>場(chǎng)景</b>語(yǔ)義標(biāo)注模型

    GAN在圖像生成應(yīng)用綜述

    GAN 可以任意的分布作為輸入,這里的 Z 就是輸入,在實(shí)驗(yàn)中我們多取Z~N(0,1),也多取 [?1,1] 的均勻分布作為輸入。生成器 G 的參數(shù)為 θ,輸入 Z 在生成器下得到
    的頭像 發(fā)表于 02-13 13:59 ?5931次閱讀
    GAN在<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>應(yīng)用綜述

    基于生成式對(duì)抗網(wǎng)絡(luò)的端圖像去霧模型

    圖像中霧的特征;其次,采用殘差學(xué)習(xí)思想直接退化圖像中學(xué)習(xí)清晣圖像的特征,實(shí)現(xiàn)端端的去霧;最
    發(fā)表于 04-12 15:03 ?20次下載
    基于<b class='flag-5'>生成</b>式對(duì)抗網(wǎng)絡(luò)的端<b class='flag-5'>到</b>端<b class='flag-5'>圖像</b>去霧模型

    一種基于改進(jìn)的DCGAN生成SAR圖像的方法

    的方法。為測(cè)試和驗(yàn)證多個(gè)同類圖像識(shí)別軟件,并進(jìn)行擇優(yōu),需要自行設(shè)計(jì)不同于訓(xùn)練用的圖像來(lái)對(duì)測(cè)軟件進(jìn)行測(cè)試。此方法可以為擇優(yōu)測(cè)試提供一個(gè)公平的基準(zhǔn)測(cè)試集。實(shí)驗(yàn)分別使用原 DCGAN模型和改進(jìn)的 DCGAN模型
    發(fā)表于 04-23 11:01 ?21次下載
    一種基于改進(jìn)的DCGAN<b class='flag-5'>生成</b>SAR<b class='flag-5'>圖像</b>的方法

    如何去解決文本圖像生成的跨模態(tài)對(duì)比損失問題?

    文本圖像的自動(dòng)生成,如何訓(xùn)練模型僅通過(guò)一段文本描述輸入就能生成具體的圖像,是一項(xiàng)非常具有挑戰(zhàn)
    的頭像 發(fā)表于 06-15 10:07 ?2988次閱讀
    如何去解決文本<b class='flag-5'>到</b><b class='flag-5'>圖像</b><b class='flag-5'>生成</b>的跨模態(tài)對(duì)比損失問題?

    AIGC最新綜述:GANChatGPT的AI生成歷史

    本調(diào)查全面回顧了生成模型的歷史、基本組件、AIGC 單模態(tài)交互和多模態(tài)交互的最新進(jìn)展。我們單峰性的角度介紹了文本和圖像生成任務(wù)和相關(guān)模
    的頭像 發(fā)表于 03-13 10:13 ?3215次閱讀

    基于文本圖像模型的可控文本視頻生成

    的文本視頻模型需要大量高質(zhì)量的視頻和計(jì)算資源,這限制了相關(guān)社區(qū)進(jìn)一步的研究和應(yīng)用。為了減少過(guò)度的訓(xùn)練要求,我們研究了一種新的高效形式:基于文本圖像模型的可控文本視頻
    的頭像 發(fā)表于 06-14 10:39 ?1263次閱讀
    基于文本<b class='flag-5'>到</b><b class='flag-5'>圖像</b>模型的可控文本<b class='flag-5'>到</b>視頻<b class='flag-5'>生成</b>

    java抽象可以普通方法嗎

    Java中的抽象可以普通方法,但它也可以抽象方法。抽象類是一種中間狀態(tài),介于
    的頭像 發(fā)表于 11-21 10:22 ?1946次閱讀

    一鍵解鎖:將任意圖像設(shè)備秒變GigE Vision設(shè)備的終極秘訣

    ?物聯(lián)網(wǎng)發(fā)展正在走向輕便和低成本。友思特eBUS Edge軟件方案,可將任意圖像設(shè)備一鍵升級(jí)為GigE Vision設(shè)備,讓機(jī)器視覺便捷處理更進(jìn)一步。
    的頭像 發(fā)表于 03-13 17:20 ?1132次閱讀
    一鍵解鎖:將<b class='flag-5'>任意圖像</b>設(shè)備秒變GigE Vision設(shè)備的終極秘訣
    主站蜘蛛池模板: 在线 | 一区二区三区四区 | 可以免费看黄色的网站 | 天天狠天天天天透在线 | 2023av网站| 河南毛片| 国产成人精品一区二区三区 | 亚洲精品乱码久久久久久蜜桃图片 | 黄色视屏免费看 | 色猫av| 噜噜噜噜噜噜色 | 久久免费国产 | 天天干天天操天天 | 在线免费看黄 | 高清性色生活片久久久 | 久青草国产高清在线视频 | 国产精品区在线12p 国产精品任我爽爆在线播放6080 | 成年毛片| zsvdy午夜片| 速度与激情10 | 国产一区在线mmai | 久久草在线视频播放 | 又色又爽视频 | 天天插插 | 国模大胆一区二区三区 | 婷婷六月激情 | 日本精品视频一视频高清 | 69hdxxxx日本| 五月激情综合 | 久热国产精品视频 | 精品日韩一区二区三区 | 免费在线色视频 | a一级黄 | 九九热在线视频观看这里只有精品 | 天天干天天干 | 你懂的在线视频观看 | 天堂网在线.www天堂在线 | 五月婷婷视频在线 | 日日噜噜噜夜夜爽爽狠狠 | 日韩一级免费视频 | 久久影视免费观看网址 | 日韩免费视频一区 |