小说阅读网,择天记,大主宰天蚕土豆

谷歌可能教過人工智能如何涂鴉，但繪制一些更復(fù)雜的東西對(duì)于電腦來(lái)說很難。想象一下，讓一臺(tái)電腦畫一只“黑色的翅膀和一個(gè)短喙的黃色的鳥”;這聽起來(lái)有點(diǎn)棘手。不過，微軟的研究人員已經(jīng)開發(fā)了一種基于人工智能的技術(shù)來(lái)做到這一點(diǎn)。根據(jù)團(tuán)隊(duì)發(fā)布的最新文章，它以驚人的準(zhǔn)確性從文本描述生成圖像。

系統(tǒng)根據(jù)您的輸入找不到現(xiàn)有的圖像，但會(huì)創(chuàng)建真實(shí)的圖形。首席研究員何曉東在一份聲明中表示：“如果你去了Bing并且尋找一只鳥，你就會(huì)得到一張鳥的照片，但是這里的照片是由計(jì)算機(jī)逐個(gè)像素地從頭開始制作的。 “這些鳥可能不存在于現(xiàn)實(shí)世界中 - 它們只是我們計(jì)算機(jī)對(duì)鳥類想像力的一個(gè)方面。”

雖然這種繪畫技術(shù)的當(dāng)前形式并不完美，但不難想象，未來(lái)它可以作為畫家和室內(nèi)設(shè)計(jì)師的素描助手，或者是基于語(yǔ)音輸入來(lái)精煉照片的工具。更遠(yuǎn)的是，研究人員他想象從書面腳本生成的動(dòng)畫電影。

該團(tuán)隊(duì)開始研究計(jì)算機(jī)視覺和自然語(yǔ)言處理與CaptionBot，一個(gè)人工智能系統(tǒng)，自動(dòng)為照片寫字幕，然后創(chuàng)建一個(gè)系統(tǒng)回答人們問的圖像稱為SeeingAI的問題，如果你是盲人。目前的技術(shù)由兩部分組成：一個(gè)是產(chǎn)生被稱為生成對(duì)抗網(wǎng)絡(luò)（GAN）的圖像，另一個(gè)是判斷所產(chǎn)生的圖像的質(zhì)量，稱為鑒別器。繪圖機(jī)器人接受了一系列圖像和標(biāo)題的訓(xùn)練，教導(dǎo)人工智能學(xué)習(xí)使用哪些圖像處理哪些單詞。團(tuán)隊(duì)還創(chuàng)建了一個(gè)人類關(guān)注的數(shù)學(xué)表示，當(dāng)我們從復(fù)雜的描述中繪制圖片時(shí)，我們都使用這個(gè)表示：一個(gè)紅色的翅膀，一個(gè)尖銳的喙，一個(gè)黃色的翅膀。他說：“注意力是一個(gè)人的概念，我們用數(shù)學(xué)來(lái)計(jì)算注意力。”

這個(gè)繪圖機(jī)器人完成了圍繞計(jì)算機(jī)視覺和自然語(yǔ)言處理交叉部分的研究循環(huán)，何曉東和他的同事在過去五年中一直在這個(gè)領(lǐng)域內(nèi)摸索。他們一開始研究的是一項(xiàng)能夠自動(dòng)為照片編寫標(biāo)題的技術(shù)——CaptionBot，然后轉(zhuǎn)向能夠回答人類關(guān)于圖像問題（例如語(yǔ)音對(duì)象的位置和屬性）的技術(shù)，這種技術(shù)對(duì)于盲人來(lái)說特別有用。

這些研究工作需要訓(xùn)練機(jī)器學(xué)習(xí)模型來(lái)識(shí)別對(duì)象、解釋行為并用自然語(yǔ)言進(jìn)行交談。

微軟研究院研究員Pengchuan Zhang補(bǔ)充表示，圖像生成是一項(xiàng)比圖像字幕更具挑戰(zhàn)性的任務(wù)，因?yàn)檫@個(gè)過程需要繪圖機(jī)器人想象出標(biāo)題中沒有包含的細(xì)節(jié)。“這意味著，你需要讓運(yùn)行人工智能的機(jī)器學(xué)習(xí)算法想象出這個(gè)圖像中缺失的部分。”

會(huì)集中注意力的圖像生成

微軟繪畫機(jī)器人的核心是生成式對(duì)抗網(wǎng)絡(luò)（Generative Adversarial Network，或者稱為GAN）技術(shù)。該網(wǎng)絡(luò)包含了兩個(gè)機(jī)器學(xué)習(xí)模型，一個(gè)根據(jù)文字描述生成圖形；另一個(gè)則作為鑒別器（discriminator），使用文本描述來(lái)判斷所生成的圖像的真實(shí)性。這兩個(gè)模型組合既矛盾又融合，生成器試圖讓假的圖片通過鑒別器的鑒定，鑒定器決定了自己不被愚弄，兩者一起工作，鑒定器會(huì)推動(dòng)生成器變得完美。

傳統(tǒng)生成式對(duì)抗網(wǎng)絡(luò)（GAN）在根據(jù)簡(jiǎn)單文字（例如藍(lán)色的鳥或者常青樹）描述生成圖像方面做得非常好，但是當(dāng)文字描述變得更復(fù)雜的時(shí)候，例如綠色的頭、黃色的翅膀、紅色的肚皮的鳥，質(zhì)量就會(huì)停滯不前。這是因?yàn)檎麄€(gè)句子對(duì)于生成器來(lái)說是一個(gè)單一輸入，這些描述中的詳細(xì)信息丟失了，結(jié)果生成的圖像是一只模模糊糊的、有點(diǎn)綠、有點(diǎn)黃也有點(diǎn)紅的鳥，而不是嚴(yán)格按照句子中的描述進(jìn)行著色的鳥。但是，微軟的該項(xiàng)技術(shù)尤其擅長(zhǎng)根據(jù)復(fù)雜的句子繪制圖像，而且，在標(biāo)題的描述中沒有提到的具體細(xì)節(jié)方面，機(jī)器人也可以填補(bǔ)這些空白。

這是因?yàn)椋幸稽c(diǎn)自己的常識(shí)和想象力，這要感謝它的訓(xùn)練數(shù)據(jù)。在鳥的例子中，機(jī)器人畫的鳥通常是站在枝頭上的，即使是文本內(nèi)容中并沒有提到這一細(xì)節(jié)也是如此，這是因?yàn)樽畛跆峁┙o它的圖像經(jīng)常出現(xiàn)類似的內(nèi)容。

微軟的繪圖機(jī)器人使用了標(biāo)題和圖像匹配好了的數(shù)據(jù)集進(jìn)行訓(xùn)練，這讓這些模型能夠?qū)W會(huì)如何將文字內(nèi)容和這些內(nèi)容的可視化表達(dá)相匹配。例如，這個(gè)生成式對(duì)抗網(wǎng)絡(luò)（GAN）學(xué)會(huì)了在標(biāo)題是鳥的時(shí)候生成一個(gè)鳥的圖像，而且也學(xué)到了鳥的圖像應(yīng)該是什么樣子。何曉東表示：“這是我們相信機(jī)器可以學(xué)習(xí)的根本原因。”

在人類畫畫的過程中，會(huì)反復(fù)查看下一步畫什么，并且十分專注于正在描繪的這一部分內(nèi)容當(dāng)中。為了捕捉這一人類特質(zhì)，微軟研究人員創(chuàng)建了他們稱之為注意力生成式對(duì)抗網(wǎng)絡(luò)或AttnGAN的技術(shù)，它從數(shù)學(xué)上代表了人類的注意的概念。它是通過將輸入的文本內(nèi)容分解為單個(gè)的詞語(yǔ)，并將其同圖像中特定的區(qū)域進(jìn)行匹配來(lái)完成這一任務(wù)的。

何曉東解釋說：“注意力是一個(gè)人類的概念；我們把注意力的問題變成了一個(gè)計(jì)算的問題。”

該模型還會(huì)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)人類稱之為常識(shí)的東西，并且利用這些學(xué)到的概念來(lái)填補(bǔ)圖像中可供想象的空白部分。例如，由于訓(xùn)練數(shù)據(jù)中的很多圖像里的鳥都是站在枝頭之上的，所以除非文本內(nèi)容另有詳細(xì)說明，AttnGAN通常畫出的鳥也都是站在枝頭之上的。

Pengchuan Zhang表示：“從數(shù)據(jù)來(lái)看，機(jī)器學(xué)習(xí)算法學(xué)到了鳥應(yīng)該在哪里這一常識(shí)。”作為難度測(cè)試，該團(tuán)隊(duì)給這個(gè)繪圖機(jī)器人一些荒謬的題目，例如“漂浮在湖面上的紅色雙層巴士。”結(jié)果它生成了一個(gè)模糊的、濕漉漉的圖像，既有點(diǎn)像一艘有雙層甲板的船，又有點(diǎn)像一輛雙層巴士，漂浮在群山環(huán)繞的湖面上。這個(gè)圖像表明，該機(jī)器人內(nèi)部產(chǎn)生了斗爭(zhēng)，它知道船是漂浮在湖面上的，而文本內(nèi)容卻詳細(xì)指定了對(duì)象是一輛巴士車。

何曉東解釋說：“我們的描述可以天花亂墜，看看機(jī)器會(huì)如何反應(yīng)。這臺(tái)機(jī)器有一些背景知識(shí)的常識(shí)，但它仍然服從你的要求，盡管有時(shí)這些要求聽起來(lái)有點(diǎn)荒謬。”

當(dāng)然，這不是第一項(xiàng)將藝術(shù)和人工智能結(jié)合在一起的技術(shù)案例。

這兩者的交叉有時(shí)會(huì)產(chǎn)生奇妙的結(jié)果。比如谷歌的人工智能繪制的這些夢(mèng)幻般的圖像就有了自己的藝術(shù)展，谷歌還有一個(gè)神經(jīng)網(wǎng)絡(luò)可以猜測(cè)你正在畫的是什么，還有一個(gè)自動(dòng)繪圖機(jī)器人等等。

Facebook也一直在教導(dǎo)神經(jīng)網(wǎng)絡(luò)繪制一些小圖形，例如飛機(jī)、汽車和動(dòng)物等，甚至從照片中創(chuàng)建自己的Bitmoji風(fēng)格的化身形象。

英偉達(dá)的研究人員使用人工智能（A.I）創(chuàng)建了計(jì)算機(jī)生成的名人。

實(shí)際應(yīng)用

從文本到圖像的生成技術(shù)可以找到很多實(shí)際應(yīng)用，可以作為畫家和室內(nèi)設(shè)計(jì)師的草圖助理，或者作為語(yǔ)音激活照片的細(xì)化工具。何曉東認(rèn)為，如果有更多的計(jì)算能力，這項(xiàng)技術(shù)能夠根據(jù)電影劇本生成動(dòng)畫電影，通過消除一些手工勞動(dòng)來(lái)改善動(dòng)畫電影制片人的工作。

然而目前來(lái)看，微軟的這項(xiàng)技術(shù)還不完善。如果你仔細(xì)檢查圖像就能找到瑕疵，例如鳥的喙是藍(lán)色的而不是黑色的，以及水果攤位上有突變的香蕉。這些缺陷清楚地表明，創(chuàng)造這幅畫的是電腦而不是人類。盡管如此，何曉東認(rèn)為，這個(gè)AttnGAN生成的圖像的質(zhì)量比之前最好的GAN生成的圖像質(zhì)量提高了接近三倍，已經(jīng)成為了通往類人類智能道路上的一個(gè)里程碑，這些類人類智能能夠增強(qiáng)人類的能力。
何曉東進(jìn)一步解釋說，“對(duì)于生活在同一個(gè)世界里的人工智能和人類來(lái)說，他們必須有一種彼此交流的方式。而語(yǔ)言和視覺是人類和機(jī)器互相交流的兩種最重要的方式。”

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

原文標(biāo)題：微軟AI可以根據(jù)詳細(xì)的文本描述來(lái)繪制對(duì)象

文章出處：【微信號(hào)：IEEE_China，微信公眾號(hào)：IEEE電氣電子工程師】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

微軟AI可以根據(jù)詳細(xì)的文本描述來(lái)繪制對(duì)象

評(píng)論