玄幻小说排行榜,遮天辰东小说笔趣阁,最好看的小说排行

OpenAI的文字圖像轉(zhuǎn)換器與文本、科學和偏見作斗爭。

在2022年4月，人工智能（AI）研究實驗室OpenAI繼2021年推出的DALL-E后，又推出了DALL-E 2。這兩個人工智能系統(tǒng)都可以根據(jù)自然語言的文本描述來生成令人驚奇的圖像，包括照片、插圖、繪畫、動畫和其他能用語言表達藝術(shù)風格的幾乎任何圖片（見下圖）。DALL-E 2的分辨率更高，處理速度更快，增加的編輯功能能夠讓用戶僅使用文本命令修改已生成圖像，例如“把那個花瓶換成植物”或“讓狗的鼻子更大一點”。

對于DALL-E 2，全球最初的反應(yīng)是震驚和欣慰。它可以在幾秒鐘之內(nèi)把任何物體和生物組合在一起，可以模仿任何藝術(shù)風格，還能描繪任何地點，并且可以刻畫各種照明條件。比如說，看到宇航員騎著一匹馬的安迪?沃霍爾（Andy Warhol）風格圖片，誰能不被感動？不過，隨著人們列出可以被這種技術(shù)輕易擾亂的行業(yè)，也難免出現(xiàn)了一絲擔憂。

OpenAI尚未向公眾、商業(yè)實體乃至整個人工智能社區(qū)發(fā)布相關(guān)技術(shù)。OpenAI的研究員馬克?陳（Mark Chen）：“我們和大家一樣擔心濫用的問題，而且非常重視這件事。”該公司確實邀請了一些人，針對DALL-E 2進行實驗。過去幾個月出現(xiàn)的研究結(jié)果充分說明了現(xiàn)今深度學習技術(shù)的局限性，也給我們打開了一個窗口，了解對于人類世界，人工智能有哪些能夠理解，又有哪些完全沒有理解。

工作原理

OpenAI在論文預(yù)印本網(wǎng)站ArXiv上發(fā)布的一篇論文表明，DALL-E 2接受了從互聯(lián)網(wǎng)上截取的約6.5億個圖像-文本對的訓練。通過這個龐大的數(shù)據(jù)集，它學習圖像與描述這些圖像的文字之間的關(guān)系。OpenAI在訓練之前對數(shù)據(jù)集進行篩選，移除了包含明顯暴力、色情和其他惡劣內(nèi)容的圖片。“模型沒有暴露這些概念之下。”陳說，“所以它生成未見過內(nèi)容的可能性非常非常低。”但研究人員明確指出，這種過濾有局限性，DALL-E 2仍然有可能生成有害的內(nèi)容。

一旦這種“編碼器”模型經(jīng)過訓練，可理解文本和圖片之間的關(guān)系，OpenAI就將它與一個可根據(jù)文本提示生成圖片的解碼器配對，使用一種名為“擴散”的方法，從隨機的點圖案開始，慢慢改變圖案，生成圖像。此外，該公司集成了一些過濾器，以便生成的圖像符合內(nèi)容政策，并承諾了不斷進行更新。可能產(chǎn)生禁止內(nèi)容的改變會被阻止，而且為了防止深度偽造，它無法準確地再現(xiàn)在訓練過程中見過的面孔（這可部分解釋為什么它通常會產(chǎn)生超現(xiàn)實的面孔）。到目前為止，OpenAI還采用了人工審查員檢查被標記為可能有問題的圖像。

由于DALL-E 2明顯有可能被濫用，OpenAI最初授權(quán)使用的只有幾百人，大多是人工智能研究人員和藝術(shù)家。與該實驗室的語言生成模型GPT-3不同，即便是有限的商業(yè)應(yīng)用，DALL-E 2 也尚不具備，而且OpenAI也未公開討論相關(guān)計劃。不過，瀏覽DALL-E 2用戶創(chuàng)建并發(fā)布在Reddit等論壇上的圖像，可以發(fā)現(xiàn)有些專業(yè)應(yīng)用確實應(yīng)該引起擔憂，例如DALL-E 2擅長的美食攝影、公司手冊和網(wǎng)站的圖片庫，以及適用于宿舍海報或雜志封面上的插圖。

問題所在

熱心的實驗者生成的圖像表明，盡管DALL-E 2有很多優(yōu)勢，但關(guān)于這個世界，它還需要學習很多東西。以下是3個最明顯、最引人關(guān)注的錯誤。

文本： DALL-E 2雖然擅長理解生成圖像的文本提示，卻很難將可理解的文本放入圖像，這一點令人感到費解。用戶發(fā)現(xiàn)，要求放入任意類型的文本都會產(chǎn)出一堆混亂的字母。珍妮爾?肖恩（Janelle Shane）喜歡在自己的人工智能博客里利用該系統(tǒng)創(chuàng)建公司的徽標，并觀察由此產(chǎn)生的混亂。不過，未來的版本可能會糾正該問題，因為OpenAI的GPT-3團隊有著豐富的文本生成專業(yè)知識。肖恩：“最終，DALL-E的后繼者將能夠拼寫‘松餅屋’（Waffle House），那一天我一定會很傷心的。我還得換一種不同方式來擾亂它、找樂子。”

科學：你可以說DALL-E 2理解一些科學定律，因為它可以輕松地描繪掉落的物體或漂浮在太空中的宇航員。但要求它生成解剖圖、X光圖、數(shù)學證明或藍圖時，它生成的圖像看似正確，而實際上卻是完全錯誤的。例如，要求DALL-E 2“按比例繪制太陽系圖解插圖”，在得到的結(jié)果圖像中，地球非常奇怪，而且有太多假設(shè)的太陽系鄰居。“DALL-E不懂什么是科學。它只知道怎樣閱讀文字說明，然后繪圖。”O(jiān)penAI的研究院阿迪蒂亞?拉梅什（Aditya Ramesh）說，“因此它不理解其中的含義，而試著編造一些看起來相似的東西。”

偏見：DALL-E 2被認為是一種接受圖片和文本訓練的多模態(tài)人工智能系統(tǒng)，會表現(xiàn)出某種形式的多模態(tài)偏見。例如，如果用戶要求它生成一名首席執(zhí)行官、一名建筑工人或者一名技術(shù)記者的圖片，它通常會根據(jù)其在訓練數(shù)據(jù)中看到的圖片-文本對來提供男性的圖片。在發(fā)布DALL-E 2之前，OpenAI要求從事該領(lǐng)域相關(guān)工作的外部研究員來充當“紅隊”，他們的見解有助于OpenAI評估該系統(tǒng)的風險和局限性。他們發(fā)現(xiàn)，除了表現(xiàn)有關(guān)性別的社會成見，該系統(tǒng)會過多地表現(xiàn)白人和西方傳統(tǒng)與環(huán)境。

陳認為“我們可以采取某些機器學習緩解措施”來糾正這些偏見，該團隊已經(jīng)采取了一些措施，例如，在訓練期間他們發(fā)現(xiàn)，由于在訓練數(shù)據(jù)中消除了的色情內(nèi)容，在建立的數(shù)據(jù)集中男性要多于女性，這導(dǎo)致DALL-E 2生成更多男性的圖像。“所以我們調(diào)整了訓練方法，并提高了女性圖像的權(quán)重，使其更有可能生成女性圖像。”陳解釋道。為了幫助DALL-E 2產(chǎn)生更多樣化的結(jié)果，用戶還可以使用“女性宇航員”或“印度婚禮”等指定性別、種族或地理位置的提示。

總之，DALL-E 2團隊表示，他們渴望看到早期用戶在測試系統(tǒng)時發(fā)現(xiàn)的問題和故障，他們也已經(jīng)在考慮接下來的工作。“我們非常有興趣提高系統(tǒng)的整體智能。”拉梅什說，并補充說該團隊希望能在“DALL-E中加深對語言及其與世界關(guān)系的理解”。他指出OpenAI的文本生成工具GPT-3對普通常識、科學和人類行為有著非常驚人的理解。“一個充滿希望的目標是嘗試通過DALL-E將GPT-3的知識與圖像領(lǐng)域聯(lián)系起來。”拉梅什說。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1806

文章
48983

瀏覽量
248872
深度學習

深度學習

+關(guān)注

關(guān)注
73

文章
5560

瀏覽量
122748
OpenAI

OpenAI

+關(guān)注

關(guān)注
9

文章
1206

瀏覽量
8856

原文標題：DALL-E 2的錯誤揭示出人工智能的局限性

文章出處：【微信號：IEEE_China，微信公眾號：IEEE電氣電子工程師】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

DALL-E 2的錯誤揭示出人工智能的局限性

評論