在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟AI可以根據(jù)詳細(xì)的文本描述來(lái)繪制對(duì)象

IEEE電氣電子工程師 ? 來(lái)源:未知 ? 作者:鄧佳佳 ? 2018-03-01 16:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

谷歌可能教過人工智能如何涂鴉,但繪制一些更復(fù)雜的東西對(duì)于電腦來(lái)說很難。想象一下,讓一臺(tái)電腦畫一只“黑色的翅膀和一個(gè)短喙的黃色的鳥”;這聽起來(lái)有點(diǎn)棘手。不過,微軟的研究人員已經(jīng)開發(fā)了一種基于人工智能的技術(shù)來(lái)做到這一點(diǎn)。根據(jù)團(tuán)隊(duì)發(fā)布的最新文章,它以驚人的準(zhǔn)確性從文本描述生成圖像。

系統(tǒng)根據(jù)您的輸入找不到現(xiàn)有的圖像,但會(huì)創(chuàng)建真實(shí)的圖形。首席研究員何曉東在一份聲明中表示:“如果你去了Bing并且尋找一只鳥,你就會(huì)得到一張鳥的照片,但是這里的照片是由計(jì)算機(jī)逐個(gè)像素地從頭開始制作的。 “這些鳥可能不存在于現(xiàn)實(shí)世界中 - 它們只是我們計(jì)算機(jī)對(duì)鳥類想像力的一個(gè)方面。”

雖然這種繪畫技術(shù)的當(dāng)前形式并不完美,但不難想象,未來(lái)它可以作為畫家和室內(nèi)設(shè)計(jì)師的素描助手,或者是基于語(yǔ)音輸入來(lái)精煉照片的工具。更遠(yuǎn)的是,研究人員他想象從書面腳本生成的動(dòng)畫電影。

該團(tuán)隊(duì)開始研究計(jì)算機(jī)視覺和自然語(yǔ)言處理與CaptionBot,一個(gè)人工智能系統(tǒng),自動(dòng)為照片寫字幕,然后創(chuàng)建一個(gè)系統(tǒng)回答人們問的圖像稱為SeeingAI的問題,如果你是盲人。目前的技術(shù)由兩部分組成:一個(gè)是產(chǎn)生被稱為生成對(duì)抗網(wǎng)絡(luò)(GAN)的圖像,另一個(gè)是判斷所產(chǎn)生的圖像的質(zhì)量,稱為鑒別器。繪圖機(jī)器人接受了一系列圖像和標(biāo)題的訓(xùn)練,教導(dǎo)人工智能學(xué)習(xí)使用哪些圖像處理哪些單詞。團(tuán)隊(duì)還創(chuàng)建了一個(gè)人類關(guān)注的數(shù)學(xué)表示,當(dāng)我們從復(fù)雜的描述中繪制圖片時(shí),我們都使用這個(gè)表示:一個(gè)紅色的翅膀,一個(gè)尖銳的喙,一個(gè)黃色的翅膀。他說:“注意力是一個(gè)人的概念,我們用數(shù)學(xué)來(lái)計(jì)算注意力。”

這個(gè)繪圖機(jī)器人完成了圍繞計(jì)算機(jī)視覺和自然語(yǔ)言處理交叉部分的研究循環(huán),何曉東和他的同事在過去五年中一直在這個(gè)領(lǐng)域內(nèi)摸索。他們一開始研究的是一項(xiàng)能夠自動(dòng)為照片編寫標(biāo)題的技術(shù)——CaptionBot,然后轉(zhuǎn)向能夠回答人類關(guān)于圖像問題(例如語(yǔ)音對(duì)象的位置和屬性)的技術(shù),這種技術(shù)對(duì)于盲人來(lái)說特別有用。

這些研究工作需要訓(xùn)練機(jī)器學(xué)習(xí)模型來(lái)識(shí)別對(duì)象、解釋行為并用自然語(yǔ)言進(jìn)行交談。

微軟研究院研究員Pengchuan Zhang補(bǔ)充表示,圖像生成是一項(xiàng)比圖像字幕更具挑戰(zhàn)性的任務(wù), 因?yàn)檫@個(gè)過程需要繪圖機(jī)器人想象出標(biāo)題中沒有包含的細(xì)節(jié)。“這意味著,你需要讓運(yùn)行人工智能的機(jī)器學(xué)習(xí)算法想象出這個(gè)圖像中缺失的部分。”

會(huì)集中注意力的圖像生成

微軟繪畫機(jī)器人的核心是生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,或者稱為GAN)技術(shù)。該網(wǎng)絡(luò)包含了兩個(gè)機(jī)器學(xué)習(xí)模型,一個(gè)根據(jù)文字描述生成圖形;另一個(gè)則作為鑒別器(discriminator),使用文本描述來(lái)判斷所生成的圖像的真實(shí)性。這兩個(gè)模型組合既矛盾又融合,生成器試圖讓假的圖片通過鑒別器的鑒定,鑒定器決定了自己不被愚弄,兩者一起工作,鑒定器會(huì)推動(dòng)生成器變得完美。

傳統(tǒng)生成式對(duì)抗網(wǎng)絡(luò)(GAN)在根據(jù)簡(jiǎn)單文字(例如藍(lán)色的鳥或者常青樹)描述生成圖像方面做得非常好,但是當(dāng)文字描述變得更復(fù)雜的時(shí)候,例如綠色的頭、黃色的翅膀、紅色的肚皮的鳥,質(zhì)量就會(huì)停滯不前。這是因?yàn)檎麄€(gè)句子對(duì)于生成器來(lái)說是一個(gè)單一輸入,這些描述中的詳細(xì)信息丟失了,結(jié)果生成的圖像是一只模模糊糊的、有點(diǎn)綠、有點(diǎn)黃也有點(diǎn)紅的鳥,而不是嚴(yán)格按照句子中的描述進(jìn)行著色的鳥。但是,微軟的該項(xiàng)技術(shù)尤其擅長(zhǎng)根據(jù)復(fù)雜的句子繪制圖像,而且,在標(biāo)題的描述中沒有提到的具體細(xì)節(jié)方面,機(jī)器人也可以填補(bǔ)這些空白。

這是因?yàn)椋幸稽c(diǎn)自己的常識(shí)和想象力,這要感謝它的訓(xùn)練數(shù)據(jù)。在鳥的例子中,機(jī)器人畫的鳥通常是站在枝頭上的,即使是文本內(nèi)容中并沒有提到這一細(xì)節(jié)也是如此,這是因?yàn)樽畛跆峁┙o它的圖像經(jīng)常出現(xiàn)類似的內(nèi)容。

微軟的繪圖機(jī)器人使用了標(biāo)題和圖像匹配好了的數(shù)據(jù)集進(jìn)行訓(xùn)練,這讓這些模型能夠?qū)W會(huì)如何將文字內(nèi)容和這些內(nèi)容的可視化表達(dá)相匹配。例如,這個(gè)生成式對(duì)抗網(wǎng)絡(luò)(GAN)學(xué)會(huì)了在標(biāo)題是鳥的時(shí)候生成一個(gè)鳥的圖像,而且也學(xué)到了鳥的圖像應(yīng)該是什么樣子。何曉東表示:“這是我們相信機(jī)器可以學(xué)習(xí)的根本原因。”

在人類畫畫的過程中,會(huì)反復(fù)查看下一步畫什么,并且十分專注于正在描繪的這一部分內(nèi)容當(dāng)中。為了捕捉這一人類特質(zhì),微軟研究人員創(chuàng)建了他們稱之為注意力生成式對(duì)抗網(wǎng)絡(luò)或AttnGAN的技術(shù),它從數(shù)學(xué)上代表了人類的注意的概念。它是通過將輸入的文本內(nèi)容分解為單個(gè)的詞語(yǔ),并將其同圖像中特定的區(qū)域進(jìn)行匹配來(lái)完成這一任務(wù)的。

何曉東解釋說:“注意力是一個(gè)人類的概念;我們把注意力的問題變成了一個(gè)計(jì)算的問題。”

該模型還會(huì)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)人類稱之為常識(shí)的東西,并且利用這些學(xué)到的概念來(lái)填補(bǔ)圖像中可供想象的空白部分。例如,由于訓(xùn)練數(shù)據(jù)中的很多圖像里的鳥都是站在枝頭之上的,所以除非文本內(nèi)容另有詳細(xì)說明,AttnGAN通常畫出的鳥也都是站在枝頭之上的。

Pengchuan Zhang表示:“從數(shù)據(jù)來(lái)看,機(jī)器學(xué)習(xí)算法學(xué)到了鳥應(yīng)該在哪里這一常識(shí)。”作為難度測(cè)試,該團(tuán)隊(duì)給這個(gè)繪圖機(jī)器人一些荒謬的題目,例如“漂浮在湖面上的紅色雙層巴士。”結(jié)果它生成了一個(gè)模糊的、濕漉漉的圖像,既有點(diǎn)像一艘有雙層甲板的船,又有點(diǎn)像一輛雙層巴士,漂浮在群山環(huán)繞的湖面上。這個(gè)圖像表明,該機(jī)器人內(nèi)部產(chǎn)生了斗爭(zhēng),它知道船是漂浮在湖面上的,而文本內(nèi)容卻詳細(xì)指定了對(duì)象是一輛巴士車。

何曉東解釋說:“我們的描述可以天花亂墜,看看機(jī)器會(huì)如何反應(yīng)。這臺(tái)機(jī)器有一些背景知識(shí)的常識(shí),但它仍然服從你的要求,盡管有時(shí)這些要求聽起來(lái)有點(diǎn)荒謬。”

當(dāng)然,這不是第一項(xiàng)將藝術(shù)和人工智能結(jié)合在一起的技術(shù)案例。

這兩者的交叉有時(shí)會(huì)產(chǎn)生奇妙的結(jié)果。比如谷歌的人工智能繪制的這些夢(mèng)幻般的圖像就有了自己的藝術(shù)展,谷歌還有一個(gè)神經(jīng)網(wǎng)絡(luò)可以猜測(cè)你正在畫的是什么,還有一個(gè)自動(dòng)繪圖機(jī)器人等等。

Facebook也一直在教導(dǎo)神經(jīng)網(wǎng)絡(luò)繪制一些小圖形,例如飛機(jī)、汽車和動(dòng)物等,甚至從照片中創(chuàng)建自己的Bitmoji風(fēng)格的化身形象。

英偉達(dá)的研究人員使用人工智能(A.I)創(chuàng)建了計(jì)算機(jī)生成的名人。

實(shí)際應(yīng)用

從文本到圖像的生成技術(shù)可以找到很多實(shí)際應(yīng)用,可以作為畫家和室內(nèi)設(shè)計(jì)師的草圖助理,或者作為語(yǔ)音激活照片的細(xì)化工具。何曉東認(rèn)為,如果有更多的計(jì)算能力,這項(xiàng)技術(shù)能夠根據(jù)電影劇本生成動(dòng)畫電影,通過消除一些手工勞動(dòng)來(lái)改善動(dòng)畫電影制片人的工作。

然而目前來(lái)看,微軟的這項(xiàng)技術(shù)還不完善。如果你仔細(xì)檢查圖像就能找到瑕疵,例如鳥的喙是藍(lán)色的而不是黑色的,以及水果攤位上有突變的香蕉。這些缺陷清楚地表明,創(chuàng)造這幅畫的是電腦而不是人類。盡管如此,何曉東認(rèn)為,這個(gè)AttnGAN生成的圖像的質(zhì)量比之前最好的GAN生成的圖像質(zhì)量提高了接近三倍,已經(jīng)成為了通往類人類智能道路上的一個(gè)里程碑,這些類人類智能能夠增強(qiáng)人類的能力。
何曉東進(jìn)一步解釋說,“對(duì)于生活在同一個(gè)世界里的人工智能和人類來(lái)說,他們必須有一種彼此交流的方式。而語(yǔ)言和視覺是人類和機(jī)器互相交流的兩種最重要的方式。”

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:微軟AI可以根據(jù)詳細(xì)的文本描述來(lái)繪制對(duì)象

文章出處:【微信號(hào):IEEE_China,微信公眾號(hào):IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    關(guān)于鴻蒙App上架中“AI文本生成模塊的資質(zhì)證明文件”的情況說明

    的應(yīng)用缺少AI文本生成模塊的資質(zhì)證明文件,不符合相關(guān)法律法規(guī)要求。 修改建議:AI文本生成模塊需補(bǔ)充提供《安全評(píng)估報(bào)告》并加手寫簽名、《安全評(píng)估報(bào)告》在全國(guó)互聯(lián)網(wǎng)安全服務(wù)管理平臺(tái)的提交
    發(fā)表于 06-30 18:37

    新思科技攜手微軟借助AI技術(shù)加速芯片設(shè)計(jì)

    近日,微軟Build大會(huì)在西雅圖盛大開幕,聚焦AI在加速各行業(yè)(包括芯片設(shè)計(jì)行業(yè))科學(xué)突破方面的變革潛力。作為Microsoft Discovery平臺(tái)發(fā)布的啟動(dòng)合作伙伴,新思科技亮相本次大會(huì),并攜手微軟
    的頭像 發(fā)表于 06-27 10:23 ?342次閱讀

    AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》閱讀心得3——RAG架構(gòu)與部署本地知識(shí)庫(kù)

    則將檢索到的內(nèi)容與原始查詢結(jié)合,生成最終響應(yīng)。這種設(shè)計(jì)使得AI系統(tǒng)能夠突破訓(xùn)練數(shù)據(jù)的限制,實(shí)現(xiàn)知識(shí)的動(dòng)態(tài)更新。書中詳細(xì)介紹了RAG的完整工作流程:從數(shù)據(jù)提取開始,通過文本分割將長(zhǎng)文檔切分成適當(dāng)大小
    發(fā)表于 03-07 19:49

    微軟科技如何應(yīng)對(duì)AI原生企業(yè)浪潮

    本文改編自微軟AI at Work首席營(yíng)銷官賈里德·斯帕塔羅(Jared Spataro)的“關(guān)于Al原生組織系列文章”,其中第1部分揭示了AI原生組織的核心原則,第2部分詳細(xì)介紹了一
    的頭像 發(fā)表于 02-11 10:34 ?453次閱讀

    微軟起訴繞過云AI安全工具開發(fā)者

    。 據(jù)悉,該訴訟于2024年12月正式向美國(guó)弗吉尼亞東區(qū)聯(lián)邦地區(qū)法院提交。微軟在訴訟中詳細(xì)闡述了被告的違法行為,并指出這起案件涉及10名未具名的被告。這些被告被指控利用技術(shù)手段規(guī)避微軟AI
    的頭像 發(fā)表于 01-13 14:46 ?482次閱讀

    微軟與重要伙伴深化AI領(lǐng)域技術(shù)合作

    2025年1月9日,美國(guó),拉斯維加斯——CES 2025國(guó)際消費(fèi)類電子產(chǎn)品展覽會(huì)期間,微軟大中華區(qū)舉辦以 “AI在握,共拓全球Be AI Ready, Win Globally” 為主題的出海伙伴
    的頭像 發(fā)表于 01-09 16:41 ?765次閱讀

    HarmonyOS NEXT 應(yīng)用開發(fā)練習(xí):AI智能對(duì)話框

    支持用戶點(diǎn)擊按鈕來(lái)觸發(fā)特定動(dòng)作。我們將使用ChatUI框架,我們也可以根據(jù)需求自行擴(kuò)展或?qū)ふ翌愃频膸?kù)來(lái)實(shí)現(xiàn)。 二、代碼實(shí)現(xiàn) 首先,確保我們已經(jīng)安裝了ChatUI框架并進(jìn)行擴(kuò)展以支持圖片
    發(fā)表于 01-03 11:29

    微軟發(fā)布Azure AI Foundry,推動(dòng)云服務(wù)增長(zhǎng)

    微軟近日發(fā)布了一款旨在協(xié)助云客戶構(gòu)建和部署人工智能應(yīng)用的新工具——Azure AI Foundry。此舉不僅體現(xiàn)了微軟在生成式人工智能領(lǐng)域的深入布局,更彰顯了其從AI應(yīng)用中獲取更多收入
    的頭像 發(fā)表于 11-21 11:32 ?865次閱讀

    RNN在圖片描述生成中的應(yīng)用

    隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,圖像描述生成(Image Captioning)作為計(jì)算機(jī)視覺和自然語(yǔ)言處理的交叉領(lǐng)域,受到了越來(lái)越多的關(guān)注。圖像描述生成任務(wù)旨在自動(dòng)生成準(zhǔn)確、自然和詳細(xì)文本
    的頭像 發(fā)表于 11-15 09:58 ?945次閱讀

    圖紙模板中的文本變量

    “ ?文本變量和系統(tǒng)自帶的內(nèi)置變量,可以幫助工程師靈活、高效地配置標(biāo)題欄中的信息,而不用擔(dān)心模板中的文字對(duì)象被意外修改。 ? ” 文本變量的語(yǔ)法
    的頭像 發(fā)表于 11-13 18:21 ?636次閱讀
    圖紙模板中的<b class='flag-5'>文本</b>變量

    如何在文本字段中使用上標(biāo)、下標(biāo)及變量

    在KiCad的任何文本字段中,都可以通過以下的方式實(shí)現(xiàn)上標(biāo)、下標(biāo)、上劃線以及顯示變量及字段值的描述文本變量“文本變量”
    的頭像 發(fā)表于 11-12 12:23 ?632次閱讀
    如何在<b class='flag-5'>文本</b>字段中使用上標(biāo)、下標(biāo)及變量

    《DNK210使用指南 -CanMV版 V1.0》第三十三章 image元素繪制實(shí)驗(yàn)

    寬度,當(dāng)為0時(shí),字符串中的每個(gè)字符根據(jù)其顯示效果調(diào)整占用的寬度,在繪制文本的時(shí)候,看起來(lái)會(huì)好很多,默認(rèn)為0。draw_string()方法會(huì)返回經(jīng)過處理的Image對(duì)象。draw_s
    發(fā)表于 11-04 14:22

    根據(jù)云服務(wù)器的部署方式和服務(wù)對(duì)象分為幾種類型

    云服務(wù)器已經(jīng)成為現(xiàn)代企業(yè)和組織IT基礎(chǔ)設(shè)施的核心組成部分。根據(jù)云服務(wù)器的部署方式和服務(wù)對(duì)象的不同,主要可以分為三種類型:公有云服務(wù)器、私有云服務(wù)器和混合云服務(wù)器。下面我們將詳細(xì)介紹這三
    的頭像 發(fā)表于 11-04 10:04 ?716次閱讀

    微軟Azure AI語(yǔ)音服務(wù)革新:引入虛擬人形象,文本一鍵轉(zhuǎn)生動(dòng)視頻

    微軟于8月23日宣布,在其領(lǐng)先的Azure AI語(yǔ)音服務(wù)中融入了一項(xiàng)革命性創(chuàng)新——虛擬人形象功能,此功能徹底顛覆了傳統(tǒng)交互方式,讓文本轉(zhuǎn)視頻的過程變得前所未有的直觀與生動(dòng)。
    的頭像 發(fā)表于 08-23 16:25 ?1070次閱讀

    微軟攜手Lumen Technologies擴(kuò)容并強(qiáng)化AI網(wǎng)絡(luò)能力合作

    微軟在7月25日宣布了一項(xiàng)重大舉措,旨在通過深化其Copilot等生成式AI服務(wù)在企業(yè)、組織、教育及普通消費(fèi)者領(lǐng)域的布局,來(lái)滿足日益增長(zhǎng)的對(duì)AI算力及網(wǎng)絡(luò)能力的需求。為實(shí)現(xiàn)這一目標(biāo),
    的頭像 發(fā)表于 07-25 14:39 ?962次閱讀
    主站蜘蛛池模板: 加勒比一到三区 | 久久精品夜夜夜夜夜久久 | 国产日本三级在线播放线观看 | 拍拍拍无档又黄又爽视频 | 久色tv| 欧美在线一级视频 | 五月婷婷丁香综合 | 羞羞色男人的天堂伊人久久 | 欧洲亚洲一区 | 亚洲综合丁香 | 夜夜爽爽爽 | 欧美成人在线影院 | 一级a爰片久久毛片 | 日本特黄特色免费大片 | 精品久久久久久久久久 | 色吧亚洲欧美另类 | 岛国一级毛片 | 午夜伦理片免费观看在线 | 天天拍拍天天爽免费视频 | 在线视频一区二区 | 成人久久网| 免费观看影院 | bt天堂资源种子在线8 | 亚洲一区亚洲二区 | 丁香九月婷婷 | 在线久综合色手机在线播放 | 午夜寂寞影院视频观看 | 午夜看片网址 | a资源在线观看 | 午夜视频免费在线观看 | 国产亚洲精品aa在线观看 | 四虎影院一区二区 | 日本精品视频四虎在线观看 | 成人三级影院 | 久久久精品免费视频 | 午夜免费视频观看 | 三级黄色免费 | 午夜骚| 亚洲看黄| 国产在线成人一区二区 | 一级待一黄aaa大片在线还看 |