在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Imagen的工作原理解讀

OpenCV學(xué)堂 ? 來源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-07-12 14:18 ? 次閱讀

本文詳細(xì)解讀了 Imagen 的工作原理,分析并理解其高級組件以及它們之間的關(guān)聯(lián)。

近年來,多模態(tài)學(xué)習(xí)受到重視,特別是文本 - 圖像合成和圖像 - 文本對比學(xué)習(xí)兩個(gè)方向。一些 AI 模型因在創(chuàng)意圖像生成、編輯方面的應(yīng)用引起了公眾的廣泛關(guān)注,例如 OpenAI 先后推出的文本圖像模型 DALL?E 和 DALL-E 2,以及英偉達(dá)的 GauGAN 和 GauGAN2。 谷歌也不甘落后,在 5 月底發(fā)布了自己的文本到圖像模型 Imagen,看起來進(jìn)一步拓展了字幕條件(caption-conditional)圖像生成的邊界。

b32d0fee-01a9-11ed-ba43-dac502259ad0.jpg

僅僅給出一個(gè)場景的描述,Imagen 就能生成高質(zhì)量、高分辨率的圖像,無論這種場景在現(xiàn)實(shí)世界中是否合乎邏輯。下圖為 Imagen 文本生成圖像的幾個(gè)示例,在圖像下方顯示出了相應(yīng)的字幕。

b3464a5e-01a9-11ed-ba43-dac502259ad0.png

這些令人印象深刻的生成圖像不禁讓人想了解:Imagen 到底是如何工作的呢? 近期,開發(fā)者講師 Ryan O'Connor 在 AssemblyAI 博客撰寫了一篇長文《How Imagen Actually Works》,詳細(xì)解讀了 Imagen 的工作原理,對 Imagen 進(jìn)行了概覽介紹,分析并理解其高級組件以及它們之間的關(guān)聯(lián)。 Imagen 工作原理概覽 在這部分,作者展示了 Imagen 的整體架構(gòu),并對其它的工作原理做了高級解讀;然后依次更透徹地剖析了 Imagen 的每個(gè)組件。如下動圖為 Imagen 的工作流程。

b39185c8-01a9-11ed-ba43-dac502259ad0.gif

首先,將字幕輸入到文本編碼器。該編碼器將文本字幕轉(zhuǎn)換成數(shù)值表示,后者將語義信息封裝在文本中。Imagen 中的文本編碼器是一個(gè) Transformer 編碼器,其確保文本編碼能夠理解字幕中的單詞如何彼此關(guān)聯(lián),這里使用自注意力方法。 如果 Imagen 只關(guān)注單個(gè)單詞而不是它們之間的關(guān)聯(lián),雖然可以獲得能夠捕獲字幕各個(gè)元素的高質(zhì)量圖像,但描述這些圖像時(shí)無法以恰當(dāng)?shù)姆绞椒从匙帜徽Z義。如下圖示例所示,如果不考慮單詞之間的關(guān)聯(lián),就會產(chǎn)生截然不同的生成效果。

b4331db6-01a9-11ed-ba43-dac502259ad0.png

雖然文本編碼器為 Imagen 的字幕輸入生成了有用的表示,但仍需要設(shè)計(jì)一種方法生成使用這一表示的圖像,也即圖像生成器。為此,Imagen 使用了擴(kuò)散模型,它是一種生成模型,近年來得益于其在多項(xiàng)任務(wù)上的 SOTA 性能而廣受歡迎。 擴(kuò)散模型通過添加噪聲來破壞訓(xùn)練數(shù)據(jù)以實(shí)現(xiàn)訓(xùn)練,然后通過反轉(zhuǎn)這個(gè)噪聲過程來學(xué)習(xí)恢復(fù)數(shù)據(jù)。給定輸入圖像,擴(kuò)散模型將在一系列時(shí)間步中迭代地利用高斯噪聲破壞圖像,最終留下高斯噪聲或電視噪音靜態(tài)(TV static)。下圖為擴(kuò)散模型的迭代噪聲過程:

b4574542-01a9-11ed-ba43-dac502259ad0.png

然后,擴(kuò)散模型將向后 work,學(xué)習(xí)如何在每個(gè)時(shí)間步上隔離和消除噪聲,抵消剛剛發(fā)生的破壞過程。訓(xùn)練完成后,模型可以一分為二。這樣可以從隨機(jī)采樣高斯噪聲開始,使用擴(kuò)散模型逐漸去噪以生成圖像,具體如下圖所示:

b475e02e-01a9-11ed-ba43-dac502259ad0.png

總之,經(jīng)過訓(xùn)練的擴(kuò)散模型從高斯噪聲開始,然后迭代地生成與訓(xùn)練圖像類似的圖像。很明顯的是,無法控制圖像的實(shí)際輸出,僅僅是將高斯噪聲輸入到模型中,并且它會輸出一張看起來屬于訓(xùn)練數(shù)據(jù)集的隨機(jī)圖像。 但是,目標(biāo)是創(chuàng)建能夠?qū)⑤斎氲?Imagen 的字幕的語義信息封裝起來的圖像,因此需要一種將字幕合并到擴(kuò)散過程中的方法。如何做到這一點(diǎn)呢? 上文提到文本編碼器產(chǎn)生了有代表性的字幕編碼,這種編碼實(shí)際上是向量序列。為了將這一編碼信息注入到擴(kuò)散模型中,這些向量被聚合在一起,并在它們的基礎(chǔ)上調(diào)整擴(kuò)散模型。通過調(diào)整這一向量,擴(kuò)散模型學(xué)習(xí)如何調(diào)整其去噪過程以生成與字幕匹配良好的圖像。過程可視化圖如下所示:

b4941b7a-01a9-11ed-ba43-dac502259ad0.gif

由于圖像生成器或基礎(chǔ)模型輸出一個(gè)小的 64x64 圖像,為了將這一模型上采樣到最終的 1024x1024 版本,使用超分辨率模型智能地對圖像進(jìn)行上采樣。 對于超分辨率模型,Imagen 再次使用了擴(kuò)散模型。整體流程與基礎(chǔ)模型基本相同,除了僅僅基于字幕編碼調(diào)整外,還以正在上采樣的更小圖像來調(diào)整。整個(gè)過程的可視化圖如下所示:

b4e6ab6a-01a9-11ed-ba43-dac502259ad0.gif

這個(gè)超分辨率模型的輸出實(shí)際上并不是最終輸出,而是一個(gè)中等大小的圖像。為了將該圖像放大到最終的 1024x1024 分辨率,又使用了另一個(gè)超分辨率模型。兩個(gè)超分辨率架構(gòu)大致相同,因此不再贅述。而第二個(gè)超分辨率模型的輸出才是 Imagen 的最終輸出。 為什么 Imagen 比 DALL-E 2 更好? 確切地回答為什么 Imagen 比 DALL-E 2 更好是困難的。然而,性能差距中不可忽視的一部分源于字幕以及提示差異。DALL-E 2 使用對比目標(biāo)來確定文本編碼與圖像(本質(zhì)上是 CLIP)的相關(guān)程度。文本和圖像編碼器調(diào)整它們的參數(shù),使得相似的字幕 - 圖像對的余弦相似度最大化,而不同的字幕 - 圖像對的余弦相似度最小化。 性能差距的一個(gè)顯著部分源于 Imagen 的文本編碼器比 DALL-E 2 的文本編碼器大得多,并且接受了更多數(shù)據(jù)的訓(xùn)練。作為這一假設(shè)的證據(jù),我們可以在文本編碼器擴(kuò)展時(shí)檢查 Imagen 的性能。下面為 Imagen 性能的帕累托曲線:

b5257a98-01a9-11ed-ba43-dac502259ad0.png

放大文本編碼器的效果高得驚人,而放大 U-Net 的效果卻低得驚人。這一結(jié)果表明,相對簡單的擴(kuò)散模型只要以強(qiáng)大的編碼為條件,就可以產(chǎn)生高質(zhì)量的結(jié)果。 鑒于 T5 文本編碼器比 CLIP 文本編碼器大得多,再加上自然語言訓(xùn)練數(shù)據(jù)必然比圖像 - 字幕對更豐富這一事實(shí),大部分性能差距可能歸因于這種差異。 除此以外,作者還列出了 Imagen 的幾個(gè)關(guān)鍵要點(diǎn),包括以下內(nèi)容:

擴(kuò)展文本編碼器是非常有效的;

擴(kuò)展文本編碼器比擴(kuò)展 U-Net 大小更重要;

動態(tài)閾值至關(guān)重要;

噪聲條件增強(qiáng)在超分辨率模型中至關(guān)重要;

將交叉注意用于文本條件反射至關(guān)重要;

高效的 U-Net 至關(guān)重要。

這些見解為正在研究擴(kuò)散模型的研究人員提供了有價(jià)值的方向,而不是只在文本到圖像的子領(lǐng)域有用。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    3784

    瀏覽量

    137455
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41090
  • 生成器
    +關(guān)注

    關(guān)注

    7

    文章

    322

    瀏覽量

    21755

原文標(biāo)題:擴(kuò)散+超分辨率模型強(qiáng)強(qiáng)聯(lián)合,谷歌圖像生成器Imagen背后的技術(shù)

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    Gemini API集成Google圖像生成模型Imagen 3

    開發(fā)者現(xiàn)在可以通過 Gemini API 訪問 Google 最先進(jìn)的圖像生成模型 Imagen 3。該模型最初僅對付費(fèi)用戶開放,不久后也將面向免費(fèi)用戶推出。
    的頭像 發(fā)表于 05-14 16:53 ?345次閱讀

    光學(xué)傳感器的工作原理與應(yīng)用

    的疾病診斷,光學(xué)傳感器的應(yīng)用遍布生活的每一個(gè)角落。本文將帶你深入了解光學(xué)傳感器的工作原理、分類、應(yīng)用及其未來的發(fā)展趨勢。 光學(xué)傳感器的工作原理 光學(xué)傳感器的工作原理基于光學(xué)效應(yīng),即當(dāng)光線與物質(zhì)相互作用時(shí),會產(chǎn)生一
    的頭像 發(fā)表于 04-15 18:24 ?470次閱讀

    液位變送器工作原理解

    液位變送器的類型 液位變送器有多種類型,包括浮球式、電容式、超聲波式、雷達(dá)式等。每種類型的工作原理和應(yīng)用場景有所不同,但它們的基本功能都是將液位變化轉(zhuǎn)換為電信號。 1. 浮球式液位變送器 浮球式液位
    的頭像 發(fā)表于 01-06 15:24 ?1003次閱讀

    借助谷歌Gemini和Imagen模型生成高質(zhì)量圖像

    以獲得卓越的視覺效果。這個(gè)過程并不止于此;一旦圖像生成,Imagen 2 可以進(jìn)一步優(yōu)化以滿足特定需求,從而創(chuàng)建一個(gè)強(qiáng)大的工作流程,用于制作頂級視覺內(nèi)容。
    的頭像 發(fā)表于 01-03 10:38 ?840次閱讀
    借助谷歌Gemini和<b class='flag-5'>Imagen</b>模型生成高質(zhì)量圖像

    反射內(nèi)存交換機(jī)工作原理

    天津拓航科技自研生產(chǎn)的反射內(nèi)存交換機(jī)工作原理解
    的頭像 發(fā)表于 11-14 10:45 ?669次閱讀
    反射內(nèi)存交換機(jī)<b class='flag-5'>工作原理</b>

    數(shù)據(jù)光端機(jī)的工作原理解

    在現(xiàn)代通信技術(shù)中,光纖通信因其高速、大容量、抗干擾能力強(qiáng)等優(yōu)點(diǎn),已成為長距離通信的主要方式。數(shù)據(jù)光端機(jī)作為光纖通信系統(tǒng)中的關(guān)鍵設(shè)備,其工作原理對于理解整個(gè)通信系統(tǒng)的運(yùn)作至關(guān)重要。 數(shù)據(jù)光端機(jī)的基本組
    的頭像 發(fā)表于 10-28 10:09 ?634次閱讀

    低壓備自投的工作原理和應(yīng)用

    在現(xiàn)代電力系統(tǒng)中,電源的可靠性和穩(wěn)定性至關(guān)重要。尤其在工業(yè)、商業(yè)及重要公共設(shè)施的供電系統(tǒng)中,頻繁的停電或晃電不僅會造成經(jīng)濟(jì)損失,甚至可能影響到安全。因此,低壓備自投設(shè)備應(yīng)運(yùn)而生。本文將為您解讀低壓備自投的工作原理、應(yīng)用領(lǐng)域。
    的頭像 發(fā)表于 09-19 16:26 ?1027次閱讀
    低壓備自投的<b class='flag-5'>工作原理</b>和應(yīng)用

    TTL逆變器的定義和工作原理

    TTL逆變器,作為數(shù)字電路中的一個(gè)重要組成部分,其定義和工作原理對于理解數(shù)字信號處理和轉(zhuǎn)換過程至關(guān)重要。
    的頭像 發(fā)表于 09-12 11:30 ?1046次閱讀

    VCA821的AGC電路的工作原理是什么?

    的控制電壓是是0~2v,測量opa820的靜態(tài)時(shí),是-100多毫伏,opa820是比較加積分電路吧,一直無法理解工作原理,有沒有做過的,能指導(dǎo)討論討論嗎
    發(fā)表于 09-06 08:25

    NFC天線的工作原理和結(jié)構(gòu)

    NFC(Near Field Communication)天線作為實(shí)現(xiàn)近距離無線通訊技術(shù)的關(guān)鍵組件,其工作原理和結(jié)構(gòu)對于理解NFC技術(shù)的運(yùn)作至關(guān)重要。
    的頭像 發(fā)表于 08-27 10:52 ?4676次閱讀

    CAN總線收發(fā)器的工作原理和應(yīng)用

    CAN(Controller Area Network)總線收發(fā)器是CAN總線通信中的關(guān)鍵組件,其工作原理和應(yīng)用對于理解現(xiàn)代汽車電子、工業(yè)自動化等領(lǐng)域的通信系統(tǒng)至關(guān)重要。以下將詳細(xì)闡述CAN總線收發(fā)器的主要工作原理及其應(yīng)用。
    的頭像 發(fā)表于 08-26 15:23 ?4686次閱讀

    串行接口的工作原理和結(jié)構(gòu)

    串行接口(Serial Interface)的工作原理和結(jié)構(gòu)是理解其在計(jì)算機(jī)與外部設(shè)備之間數(shù)據(jù)傳輸方式的重要基礎(chǔ)。以下將詳細(xì)闡述串行接口的工作原理及其典型結(jié)構(gòu)。
    的頭像 發(fā)表于 08-25 17:01 ?2793次閱讀

    前饋神經(jīng)網(wǎng)絡(luò)的工作原理和應(yīng)用

    前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network, FNN),作為最基本且應(yīng)用廣泛的一種人工神經(jīng)網(wǎng)絡(luò)模型,其工作原理和結(jié)構(gòu)對于理解深度學(xué)習(xí)及人工智能領(lǐng)域至關(guān)重要。本文將從前饋神經(jīng)網(wǎng)絡(luò)的基本原理出發(fā),詳細(xì)闡述其結(jié)構(gòu)特點(diǎn)、
    的頭像 發(fā)表于 07-08 11:28 ?2966次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的基本概念和工作原理

    工作原理,在處理圖像數(shù)據(jù)時(shí)展現(xiàn)出了卓越的性能。本文將從卷積神經(jīng)網(wǎng)絡(luò)的基本概念、結(jié)構(gòu)組成、工作原理以及實(shí)際應(yīng)用等多個(gè)方面進(jìn)行深入解讀
    的頭像 發(fā)表于 07-02 18:17 ?5131次閱讀

    什么是LLM?LLM的工作原理和結(jié)構(gòu)

    生成、機(jī)器翻譯、智能問答等多個(gè)領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力。本文將從LLM的定義、發(fā)展歷程、工作原理、結(jié)構(gòu)以及未來趨勢等方面進(jìn)行深入解讀,以期為讀者提供一個(gè)全面而清晰的認(rèn)識。
    的頭像 發(fā)表于 07-02 11:45 ?1.3w次閱讀
    主站蜘蛛池模板: 一区二区三区高清不卡 | 中文字幕一区二区三区四区五区 | 亚洲黄色网址大全 | 日本黄色一区 | 四虎永久免费网站免费观看 | 色老久久精品偷偷鲁一区 | 性夜影院午夜看片 | 偷窥自拍亚洲色图 | 一级毛片免费全部播放完整 | 日韩欧美卡一卡二卡新区 | v片视频 | 亚欧洲乱码专区视频 | 欧美一级特黄乱妇高清视频 | 农村三级毛片 | 四虎在线观看一区二区 | 久久久久久久久女黄 | 黄色网址大全免费 | 人人搞人人搞 | 午夜免费一级片 | 很黄很污的视频网站 | 国产一级做a爰片久久毛片男 | 自拍偷拍欧美 | 午夜dy888理论在线播放 | 日本xx69| 欧美一区二区三区免费 | 欧美日本一区二区三区 | 久久伦子沙发 | 影院在线观看免费 | 99久久国产免费中文无字幕 | 国内一区二区三区精品视频 | 国产精品第九页 | 日本三级欧美三级香港黄 | 亚洲资源在线播放 | 狠狠狠色丁香婷婷综合久久五月 | 六月丁香啪啪六月激情 | 8050午夜一级二级全黄 | 午夜免费观看福利片一区二区三区 | 国产嫩草影院精品免费网址 | 日韩一级黄 | a级毛片网站 | 日本极度另类网站 |