91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

GPT-3引發公眾的遐想 能根據文字產生圖片的AI!

hl5C_deeptechch ? 來源:DeepTech深科技 ? 作者:DeepTech深科技 ? 2020-10-09 18:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在全球所有 AI 模型中,OpenAI 的 GPT-3 最能引發公眾的遐想。

雖然它可以僅憑很少的文本來輸出詩歌、短篇小說和歌曲,并且成功地讓人們相信這是人類的創作。但是,它在同人類對話時還是顯得非常“幼稚”。可盡管如此,技術人員依然認為,創造了 GPT-3 的技術可能是通往更高級 AI 的必經之路。

GPT-3 使用大量文本數據進行了訓練,那么,假如同時使用文本和圖像數據進行訓練,會發生什么呢?

艾倫人工智能研究所(AI2)在這個問題上取得了進展,技術人員開發了一種新的視覺語言模型,可以根據給定的文本生成對應圖像。

不同于 GAN 所生成的超現實主義作品,AI2 生成的這些圖像看起來非常怪異,但它的確可能是一個實現通用人工智能的新路徑。

AI“做題家”

GPT-3 在分類上屬于 “Transformer” 模型,隨著 Google BERT 的成功,該模型開始流行。而在 BERT 之前,語言模型可用性不佳。

它們雖然具備一定的預測能力,但并不足以生成符合語法和常識的長句子。BERT 通過引入一種稱為 “masking(遮罩)” 的新技術,使模型這方面的能力得到了大幅加強。

模型會被要求完成類似下面的填空題:

這位女士去___鍛煉。

他們買了一個___面包做三明治。

這個想法初衷是,如果強迫模型進行數百萬次的這類練習,它是否可能學會如何將單詞組合成句子以及如何將句子組合成段落。測試結果表明,模型確實獲得了更好地生成和解釋文本的能力(Google 正在使用 BERT 幫助在其搜索引擎中提供更多相關的搜索結果)。

在證明遮罩行之有效之后,技術人員試圖通過將文本中的單詞隱藏,將其應用于視覺語言模型,例如:

一只站立在樹木旁的___。(來源:MIT TR)

通過數百萬次的訓練,它不僅可以發現單詞之間的組合模式,還可以發現單詞與圖像中元素之間的關聯。

這樣的結果就是模型擁有了將文字描述與視覺圖像相關聯的能力,就像人類的嬰兒可以在他們所學的單詞同所見事物之間建立聯系一樣。

舉個例子,當模型讀取到下面的圖片,便可以給出一個較為貼切標題,如 “打曲棍球的女人”。或者它們可以回答諸如“球是什么顏色?” 之類的問題,因為模型可以將單詞 “球” 與圖像中的圓形物體關聯。

圖 | 女子曲棍球比賽 (來源:MIT TR)

一圖勝千言

技術人員想知道這些模型是否真的像嬰兒一樣 “學會” 了認識這個世界。

孩子不僅可以在看到圖像時聯想到單詞,還可以在看到單詞時在頭腦中浮現出對應的圖像,哪怕這個圖像是真實和想象的混合體。

技術人員嘗試讓模型做同樣的事情:根據文本生成圖像。然后模型吐出了無意義的像素圖案。

得到這樣的結果是有原因的,將文本轉換為圖像的任務相比其他要困難得多。AI2 的計算機視覺團隊負責人 Ani Kembhavi 說,文本并未指定圖像中包含的所有內容。因此,模型需要 “聯想” 許多現實世界的常識來填充細節。

例如,假設 AI 被要求繪制“在道路上行走的長頸鹿”,它需要推斷出這條道路更可能是灰色而不是粉色,并且更可能毗鄰草地而不是海洋——盡管這些信息都不明確。

因此 Kembhavi 和他的同事 Jaemin Cho、Jiasen Lu 和 Hannaneh Hajishirzi 決定看看他們是否可以通過調整遮罩的方式,來教授 AI 所有這些隱式視覺知識。他們訓練模型不是為了從對應圖片中預測被遮蓋的單詞,而是為了讓它能從文本中 “腦補” 圖片中的缺失部分。

雖然模型最終生成的圖像并不完全真實,但這不是重點。重要的是這預示著模型已經包含了正確的高級視覺概念,即 AI 一定程度上具備了兒童的根據文本畫圖的能力。

圖 | AI2 模型根據文本生成的圖像示例 (來源:MIT TR)

視覺語言模型獲得此類圖像生成的能力代表了 AI 研究的重要一步,這表明該模型實際上具有一定程度的抽象能力,而這是理解世界的基本技能。

未來,這項技術很可能對機器人領域產生極大影響。機器人可以使用語言進行交流,當它們對視覺信息的理解越好,就越能夠執行復雜的任務。

Hajishirzi 說,從短期來看,這種可視化還可以幫助技術人員更好地理解 AI 模型的學習過程。之后,AI2 團隊計劃展開更多實驗,以提高圖像生成的質量,并拓寬模型的視覺和語言。

文章出處:【微信公眾號:DeepTech深科技】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    88

    文章

    35065

    瀏覽量

    279366
  • 人工智能
    +關注

    關注

    1806

    文章

    48996

    瀏覽量

    249228

原文標題:這些令人不安的照片,表明AI越來越聰明了!它正在學習根據文字生成圖片

文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    端側OCR文字識別實現 -- Core Vision Kit ##HarmonyOS SDK AI##

    獲取圖片url,把這個url和token再發給百度的ocr接口獲取識別數據……或者圖片轉base64以后把這個base64給接口,然而鴻蒙這里,目前我也不知道啥原因(可能是發送請求的數據長度有限
    發表于 06-30 18:07

    鴻蒙5開發寶藏案例分享---AI輔助圖文內容高效編創

    自動摳圖 圖片文字智能識別 HDR Vivid高清渲染 無縫接續編輯 編輯內容實時同步多設備 分布式文件系統自動同步素材 三、關鍵功能實現詳解 1. AI圖片處理(OCR+摳圖) //
    發表于 06-12 11:40

    【名單公布】【五一打卡】勞動最光榮!分享勞動風采,把小智AI套件帶回家

    根據內容質量進行先后排序,選出3名最佳回復,送出小智AI機器人套件(ESP32S3) 優質回復內容要求: 內容新穎,字句通暢,要求文字不少于
    發表于 04-28 16:53

    首創開源架構,天璣AI開發套件讓端側AI模型接入得心應手

    科正將AI能力體系化并賦終端生態。 大會上,聯科定義了“智能體化用戶體驗”的五大特征:主動及時、知你懂你、互動協作、學習進化和專屬隱私信息守護。這五大特征需要跨越從芯片、模型、應用、終端乃至整個
    發表于 04-13 19:52

    DLP4710evm lc TRIG_OUT2腳不輸出脈沖信號怎么解決?

    用TRIG_OUT2腳觸發相機拍照,前幾天還能根據投影同步產生觸發信號,這幾天再實驗的時候TRIG_OUT2腳就不受控制了,一直輸出高電平。TRIG_OUT1
    發表于 02-25 08:07

    從性能到商業,Grok3GPT-4o、DeepSeek如何重塑AI版圖?

    2025年2月,AI領域仿佛上演了一場激烈的“諸神之戰”,馬斯克旗下xAI發布的Grok3、OpenAI推出的GPT-4o以及持續憑借R1模型大放異彩的DeepSeek,三大巨頭強勢登場,讓A
    的頭像 發表于 02-19 18:14 ?1062次閱讀
    從性能到商業,Grok<b class='flag-5'>3</b>、<b class='flag-5'>GPT</b>-4o、DeepSeek如何重塑<b class='flag-5'>AI</b>版圖?

    OpenAI即將發布GPT-4.5與GPT-5

    GPT-4.5將在未來幾周內率先亮相,它將是OpenAI通用GPT-4模型的繼承者。這款新的算法在技術上進行了諸多優化和升級,旨在為用戶提供更加精準、高效的AI服務。 而在GPT-4
    的頭像 發表于 02-13 13:43 ?641次閱讀

    DeepSeek:引領全球AI競賽的中國新范式

    的價值重估,DeepSeek現象折射出中國AI產業發展的新邏輯。這家成立僅兩年的初創企業,不僅連續推出性能對標GPT-4的MoE(混合專家系統)架構大模型,更在商業化、開源生態、跨場景應用等方面展現出與OpenAI等國際巨頭差異化的戰略選擇。蛇年春節期間
    的頭像 發表于 02-09 10:31 ?906次閱讀

    OpenAI將發布更智能GPT模型及AI智能體工具

    OpenAI近日透露了其未來發展的重要動向。據OpenAI首席產品官凱文·維爾(Kevin Weil)介紹,公司計劃推出更智能的GPT o3模型,并首次亮相AI智能體工具,這將使ChatGPT能夠在計算機上執行實際操作,進一步拓
    的頭像 發表于 01-24 13:54 ?533次閱讀

    騰訊混元3D AI創作引擎正式發布

    AI技術,能夠根據用戶提供的提示詞或圖片,直接生成高質量的3D模型。這一功能極大地降低了3D內容創作的門檻,使得即使是缺乏專業
    的頭像 發表于 01-23 10:33 ?591次閱讀

    AI時代算力的重要性及現狀:平衡發展與優化配置的挑戰

    瓦時的電力。訓練一次擁有1746億參數的GPT-3模型,所需的算力更是高達3640PFlops,耗資466萬美元。
    的頭像 發表于 11-04 11:45 ?1148次閱讀

    Llama 3GPT-4 比較

    隨著人工智能技術的飛速發展,我們見證了一代又一代的AI模型不斷突破界限,為各行各業帶來革命性的變化。在這場技術競賽中,Llama 3GPT-4作為兩個備受矚目的模型,它們代表了當前AI
    的頭像 發表于 10-27 14:17 ?1143次閱讀

    英偉達預測機器人領域或迎“GPT-3時刻”

    未來2-3年內,機器人基礎模型的研究將迎來重大突破,這一時刻被形象地比喻為機器人領域的“GPT-3時刻”。
    的頭像 發表于 09-20 17:05 ?1072次閱讀

    Jim Fan展望:機器人領域即將迎來GPT-3式突破

    英偉達科學家9月19日,科技媒體The Decoder發布了一則引人關注的報道,英偉達高級科學家Jim Fan在近期預測,機器人技術將在未來兩到三年內迎來類似GPT-3在語言處理領域的革命性突破,他稱之為機器人領域的“GPT-3時刻”。
    的頭像 發表于 09-19 15:13 ?940次閱讀

    【算RADXA微服務器試用體驗】+ GPT語音與視覺交互:4,文字轉語音

    tts_venv source tts_venv/bin/activate pip3 install https://github.com/radxa-edge/TPU-Edge-AI/releases
    發表于 07-15 23:18
    主站蜘蛛池模板: 天天操狠狠操 | 色香蕉在线观看网站 | 天天上天天操 | 特级全黄大片 | 天天狠天天天天透在线 | 在线天堂bt中文www在线 | 女人本色高清在线观看wwwwww国产 | 最近国语视频免费观看在线播放 | 亚洲香蕉电影 | 女的扒开尿口让男人桶爽 | 天天看天天摸色天天综合网 | 天天想天天干 | 岛国片欧美一级毛片 | 日本理论片www视频 日本理论午夜中文字幕第一页 | 国产真实偷乱视频在线观看 | 68日本 xxxxxxxxx | 美女流白浆网站 | 成人黄色免费 | 天堂视频在线 | 日韩亚洲欧洲在线com91tv | 精品一区二区三区在线视频 | 国产精品久久久久网站 | 国产色婷婷精品综合在线手机播放 | 日本janpanese护士bus中国 | 五月天婷婷视频在线观看 | 日本一二线不卡在线观看 | 日本三级视频在线 | 免费黄色小视频 | 99精品在免费线视频 | 亚州色图欧美色图 | 午夜免费视频观看在线播放 | 69国产 | 成年网站在线在免费播放 | 网友偷自拍原创区 | 国模沟沟一区二区三区 | 国产黄页 | 上色天天综合网 | 欧美片欧美日韩国产综合片 | 黄色的网站在线观看 | 一区二区三区高清视频在线观看 | 亚洲bt欧美bt高清bt777 |