谷歌可能教過人工智能如何涂鴉,但繪制一些更復(fù)雜的東西對(duì)于電腦來(lái)說很難。想象一下,讓一臺(tái)電腦畫一只“黑色的翅膀和一個(gè)短喙的黃色的鳥”;這聽起來(lái)有點(diǎn)棘手。不過,微軟的研究人員已經(jīng)開發(fā)了一種基于人工智能的技術(shù)來(lái)做到這一點(diǎn)。根據(jù)團(tuán)隊(duì)發(fā)布的最新文章,它以驚人的準(zhǔn)確性從文本描述生成圖像。
系統(tǒng)根據(jù)您的輸入找不到現(xiàn)有的圖像,但會(huì)創(chuàng)建真實(shí)的圖形。首席研究員何曉東在一份聲明中表示:“如果你去了Bing并且尋找一只鳥,你就會(huì)得到一張鳥的照片,但是這里的照片是由計(jì)算機(jī)逐個(gè)像素地從頭開始制作的。 “這些鳥可能不存在于現(xiàn)實(shí)世界中 - 它們只是我們計(jì)算機(jī)對(duì)鳥類想像力的一個(gè)方面。”
雖然這種繪畫技術(shù)的當(dāng)前形式并不完美,但不難想象,未來(lái)它可以作為畫家和室內(nèi)設(shè)計(jì)師的素描助手,或者是基于語(yǔ)音輸入來(lái)精煉照片的工具。更遠(yuǎn)的是,研究人員他想象從書面腳本生成的動(dòng)畫電影。
該團(tuán)隊(duì)開始研究計(jì)算機(jī)視覺和自然語(yǔ)言處理與CaptionBot,一個(gè)人工智能系統(tǒng),自動(dòng)為照片寫字幕,然后創(chuàng)建一個(gè)系統(tǒng)回答人們問的圖像稱為SeeingAI的問題,如果你是盲人。目前的技術(shù)由兩部分組成:一個(gè)是產(chǎn)生被稱為生成對(duì)抗網(wǎng)絡(luò)(GAN)的圖像,另一個(gè)是判斷所產(chǎn)生的圖像的質(zhì)量,稱為鑒別器。繪圖機(jī)器人接受了一系列圖像和標(biāo)題的訓(xùn)練,教導(dǎo)人工智能學(xué)習(xí)使用哪些圖像處理哪些單詞。團(tuán)隊(duì)還創(chuàng)建了一個(gè)人類關(guān)注的數(shù)學(xué)表示,當(dāng)我們從復(fù)雜的描述中繪制圖片時(shí),我們都使用這個(gè)表示:一個(gè)紅色的翅膀,一個(gè)尖銳的喙,一個(gè)黃色的翅膀。他說:“注意力是一個(gè)人的概念,我們用數(shù)學(xué)來(lái)計(jì)算注意力。”
這個(gè)繪圖機(jī)器人完成了圍繞計(jì)算機(jī)視覺和自然語(yǔ)言處理交叉部分的研究循環(huán),何曉東和他的同事在過去五年中一直在這個(gè)領(lǐng)域內(nèi)摸索。他們一開始研究的是一項(xiàng)能夠自動(dòng)為照片編寫標(biāo)題的技術(shù)——CaptionBot,然后轉(zhuǎn)向能夠回答人類關(guān)于圖像問題(例如語(yǔ)音對(duì)象的位置和屬性)的技術(shù),這種技術(shù)對(duì)于盲人來(lái)說特別有用。
這些研究工作需要訓(xùn)練機(jī)器學(xué)習(xí)模型來(lái)識(shí)別對(duì)象、解釋行為并用自然語(yǔ)言進(jìn)行交談。
微軟研究院研究員Pengchuan Zhang補(bǔ)充表示,圖像生成是一項(xiàng)比圖像字幕更具挑戰(zhàn)性的任務(wù), 因?yàn)檫@個(gè)過程需要繪圖機(jī)器人想象出標(biāo)題中沒有包含的細(xì)節(jié)。“這意味著,你需要讓運(yùn)行人工智能的機(jī)器學(xué)習(xí)算法想象出這個(gè)圖像中缺失的部分。”
會(huì)集中注意力的圖像生成
微軟繪畫機(jī)器人的核心是生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,或者稱為GAN)技術(shù)。該網(wǎng)絡(luò)包含了兩個(gè)機(jī)器學(xué)習(xí)模型,一個(gè)根據(jù)文字描述生成圖形;另一個(gè)則作為鑒別器(discriminator),使用文本描述來(lái)判斷所生成的圖像的真實(shí)性。這兩個(gè)模型組合既矛盾又融合,生成器試圖讓假的圖片通過鑒別器的鑒定,鑒定器決定了自己不被愚弄,兩者一起工作,鑒定器會(huì)推動(dòng)生成器變得完美。
傳統(tǒng)生成式對(duì)抗網(wǎng)絡(luò)(GAN)在根據(jù)簡(jiǎn)單文字(例如藍(lán)色的鳥或者常青樹)描述生成圖像方面做得非常好,但是當(dāng)文字描述變得更復(fù)雜的時(shí)候,例如綠色的頭、黃色的翅膀、紅色的肚皮的鳥,質(zhì)量就會(huì)停滯不前。這是因?yàn)檎麄€(gè)句子對(duì)于生成器來(lái)說是一個(gè)單一輸入,這些描述中的詳細(xì)信息丟失了,結(jié)果生成的圖像是一只模模糊糊的、有點(diǎn)綠、有點(diǎn)黃也有點(diǎn)紅的鳥,而不是嚴(yán)格按照句子中的描述進(jìn)行著色的鳥。但是,微軟的該項(xiàng)技術(shù)尤其擅長(zhǎng)根據(jù)復(fù)雜的句子繪制圖像,而且,在標(biāo)題的描述中沒有提到的具體細(xì)節(jié)方面,機(jī)器人也可以填補(bǔ)這些空白。
這是因?yàn)椋幸稽c(diǎn)自己的常識(shí)和想象力,這要感謝它的訓(xùn)練數(shù)據(jù)。在鳥的例子中,機(jī)器人畫的鳥通常是站在枝頭上的,即使是文本內(nèi)容中并沒有提到這一細(xì)節(jié)也是如此,這是因?yàn)樽畛跆峁┙o它的圖像經(jīng)常出現(xiàn)類似的內(nèi)容。
微軟的繪圖機(jī)器人使用了標(biāo)題和圖像匹配好了的數(shù)據(jù)集進(jìn)行訓(xùn)練,這讓這些模型能夠?qū)W會(huì)如何將文字內(nèi)容和這些內(nèi)容的可視化表達(dá)相匹配。例如,這個(gè)生成式對(duì)抗網(wǎng)絡(luò)(GAN)學(xué)會(huì)了在標(biāo)題是鳥的時(shí)候生成一個(gè)鳥的圖像,而且也學(xué)到了鳥的圖像應(yīng)該是什么樣子。何曉東表示:“這是我們相信機(jī)器可以學(xué)習(xí)的根本原因。”
在人類畫畫的過程中,會(huì)反復(fù)查看下一步畫什么,并且十分專注于正在描繪的這一部分內(nèi)容當(dāng)中。為了捕捉這一人類特質(zhì),微軟研究人員創(chuàng)建了他們稱之為注意力生成式對(duì)抗網(wǎng)絡(luò)或AttnGAN的技術(shù),它從數(shù)學(xué)上代表了人類的注意的概念。它是通過將輸入的文本內(nèi)容分解為單個(gè)的詞語(yǔ),并將其同圖像中特定的區(qū)域進(jìn)行匹配來(lái)完成這一任務(wù)的。
何曉東解釋說:“注意力是一個(gè)人類的概念;我們把注意力的問題變成了一個(gè)計(jì)算的問題。”
該模型還會(huì)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)人類稱之為常識(shí)的東西,并且利用這些學(xué)到的概念來(lái)填補(bǔ)圖像中可供想象的空白部分。例如,由于訓(xùn)練數(shù)據(jù)中的很多圖像里的鳥都是站在枝頭之上的,所以除非文本內(nèi)容另有詳細(xì)說明,AttnGAN通常畫出的鳥也都是站在枝頭之上的。
Pengchuan Zhang表示:“從數(shù)據(jù)來(lái)看,機(jī)器學(xué)習(xí)算法學(xué)到了鳥應(yīng)該在哪里這一常識(shí)。”作為難度測(cè)試,該團(tuán)隊(duì)給這個(gè)繪圖機(jī)器人一些荒謬的題目,例如“漂浮在湖面上的紅色雙層巴士。”結(jié)果它生成了一個(gè)模糊的、濕漉漉的圖像,既有點(diǎn)像一艘有雙層甲板的船,又有點(diǎn)像一輛雙層巴士,漂浮在群山環(huán)繞的湖面上。這個(gè)圖像表明,該機(jī)器人內(nèi)部產(chǎn)生了斗爭(zhēng),它知道船是漂浮在湖面上的,而文本內(nèi)容卻詳細(xì)指定了對(duì)象是一輛巴士車。
何曉東解釋說:“我們的描述可以天花亂墜,看看機(jī)器會(huì)如何反應(yīng)。這臺(tái)機(jī)器有一些背景知識(shí)的常識(shí),但它仍然服從你的要求,盡管有時(shí)這些要求聽起來(lái)有點(diǎn)荒謬。”
當(dāng)然,這不是第一項(xiàng)將藝術(shù)和人工智能結(jié)合在一起的技術(shù)案例。
這兩者的交叉有時(shí)會(huì)產(chǎn)生奇妙的結(jié)果。比如谷歌的人工智能繪制的這些夢(mèng)幻般的圖像就有了自己的藝術(shù)展,谷歌還有一個(gè)神經(jīng)網(wǎng)絡(luò)可以猜測(cè)你正在畫的是什么,還有一個(gè)自動(dòng)繪圖機(jī)器人等等。
Facebook也一直在教導(dǎo)神經(jīng)網(wǎng)絡(luò)繪制一些小圖形,例如飛機(jī)、汽車和動(dòng)物等,甚至從照片中創(chuàng)建自己的Bitmoji風(fēng)格的化身形象。
英偉達(dá)的研究人員使用人工智能(A.I)創(chuàng)建了計(jì)算機(jī)生成的名人。
實(shí)際應(yīng)用
從文本到圖像的生成技術(shù)可以找到很多實(shí)際應(yīng)用,可以作為畫家和室內(nèi)設(shè)計(jì)師的草圖助理,或者作為語(yǔ)音激活照片的細(xì)化工具。何曉東認(rèn)為,如果有更多的計(jì)算能力,這項(xiàng)技術(shù)能夠根據(jù)電影劇本生成動(dòng)畫電影,通過消除一些手工勞動(dòng)來(lái)改善動(dòng)畫電影制片人的工作。
然而目前來(lái)看,微軟的這項(xiàng)技術(shù)還不完善。如果你仔細(xì)檢查圖像就能找到瑕疵,例如鳥的喙是藍(lán)色的而不是黑色的,以及水果攤位上有突變的香蕉。這些缺陷清楚地表明,創(chuàng)造這幅畫的是電腦而不是人類。盡管如此,何曉東認(rèn)為,這個(gè)AttnGAN生成的圖像的質(zhì)量比之前最好的GAN生成的圖像質(zhì)量提高了接近三倍,已經(jīng)成為了通往類人類智能道路上的一個(gè)里程碑,這些類人類智能能夠增強(qiáng)人類的能力。
何曉東進(jìn)一步解釋說,“對(duì)于生活在同一個(gè)世界里的人工智能和人類來(lái)說,他們必須有一種彼此交流的方式。而語(yǔ)言和視覺是人類和機(jī)器互相交流的兩種最重要的方式。”
原文標(biāo)題:微軟AI可以根據(jù)詳細(xì)的文本描述來(lái)繪制對(duì)象
文章出處:【微信號(hào):IEEE_China,微信公眾號(hào):IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
關(guān)于鴻蒙App上架中“AI文本生成模塊的資質(zhì)證明文件”的情況說明
新思科技攜手微軟借助AI技術(shù)加速芯片設(shè)計(jì)
《AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》閱讀心得3——RAG架構(gòu)與部署本地知識(shí)庫(kù)
微軟科技如何應(yīng)對(duì)AI原生企業(yè)浪潮
微軟起訴繞過云AI安全工具開發(fā)者
微軟與重要伙伴深化AI領(lǐng)域技術(shù)合作
HarmonyOS NEXT 應(yīng)用開發(fā)練習(xí):AI智能對(duì)話框
微軟發(fā)布Azure AI Foundry,推動(dòng)云服務(wù)增長(zhǎng)
RNN在圖片描述生成中的應(yīng)用
圖紙模板中的文本變量

如何在文本字段中使用上標(biāo)、下標(biāo)及變量

評(píng)論