在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 作者:智能感知與物聯(lián)網(wǎng) ? 2022-11-21 11:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI 可以完全按照甲方意愿修圖?GPT-3、Stable Diffusion 一起助攻,讓模型秒變 PS 高手,改圖隨心所欲。

擴散模型大火之后,很多人將注意力放到了如何利用更有效的 prompt 生成自己想要的圖像。在對于一些 AI 作畫模型的不斷嘗試中,人們甚至總結(jié)出了讓 AI 好好出圖的關(guān)鍵詞經(jīng)驗:

9b0c2b0e-68e0-11ed-8abf-dac502259ad0.jpg

也就是說,如果掌握了正確的 AI 話術(shù),作圖質(zhì)量提升效果將非常明顯(參見:《「羊駝打籃球」怎么畫?有人花了 13 美元逼 DALL·E 2 亮出真本事 》)。

此外,還有一部分研究者在往另一個方向努力:如何動動嘴皮子就把一幅畫改成我們想要的樣子。

前段時間,我們報道了一項來自谷歌研究院等機構(gòu)的研究。只要說出你想讓一幅圖變成什么樣子,它就能基本滿足你的要求,生成照片級的圖像,例如讓一只小狗坐下:

9b1bd0f4-68e0-11ed-8abf-dac502259ad0.png

這里給模型的輸入描述是「一只坐下的狗」,但是按照人們的日常交流習慣,最自然的描述應(yīng)該是「讓這只狗坐下」。有研究者認為這是一個應(yīng)該優(yōu)化的問題,模型應(yīng)該更符合人類的語言習慣。

最近,來自 UC 伯克利的研究團隊提出了一種根據(jù)人類指令編輯圖像的新方法 InstructPix2Pix:給定輸入圖像和告訴模型要做什么的文本描述,模型就能遵循描述指令來編輯圖像。

9b87dce0-68e0-11ed-8abf-dac502259ad0.png

論文地址:https://arxiv.org/pdf/2211.09800.pdf

例如,要把畫中的向日葵換成玫瑰,你只需要直接對模型說「把向日葵換成玫瑰」:

9b992ebe-68e0-11ed-8abf-dac502259ad0.png

為了獲得訓練數(shù)據(jù),該研究將兩個大型預(yù)訓練模型——語言模型 (GPT-3) 和文本到圖像生成模型 (Stable Diffusion) 結(jié)合起來,生成圖像編輯示例的大型成對訓練數(shù)據(jù)集。研究者在這個大型數(shù)據(jù)集上訓練了新模型 InstructPix2Pix,并在推理時泛化到真實圖像和用戶編寫的指令上。

InstructPix2Pix 是一個條件擴散模型,給定一個輸入圖像和一個編輯圖像的文本指令,它就能生成編輯后的圖像。該模型直接在前向傳播(forward pass)中執(zhí)行圖像編輯,不需要任何額外的示例圖像、輸入 / 輸出圖像的完整描述或每個示例的微調(diào),因此該模型僅需幾秒就能快速編輯圖像。

盡管 InstructPix2Pix 完全是在合成示例(即 GPT-3 生成的文本描述和 Stable Diffusion 生成的圖像)上進行訓練的,但該模型實現(xiàn)了對任意真實圖像和人類編寫文本的零樣本泛化。該模型支持直觀的圖像編輯,包括替換對象、更改圖像風格等等。

9bb17bea-68e0-11ed-8abf-dac502259ad0.png

方法概覽

研究者將基于指令的圖像編輯視為一個監(jiān)督學習問題:首先,他們生成了一個包含文本編輯指令和編輯前后圖像的成對訓練數(shù)據(jù)集(圖 2a-c),然后在這個生成的數(shù)據(jù)集上訓練了一個圖像編輯擴散模型(圖 2d)。盡管訓練時使用的是生成的圖像和編輯指令,但模型仍然能夠使用人工編寫的任意指令來編輯真實的圖像。下圖 2 是方法概述。

9bf20a52-68e0-11ed-8abf-dac502259ad0.png

生成一個多模態(tài)訓練數(shù)據(jù)集

在數(shù)據(jù)集生成階段,研究者結(jié)合了一個大型語言模型(GPT-3)和一個文本轉(zhuǎn)圖像模型(Stable Diffusion)的能力,生成了一個包含文本編輯指令和編輯前后對應(yīng)圖像的多模態(tài)訓練數(shù)據(jù)集。這一過程包含以下步驟:

微調(diào) GPT-3 以生成文本編輯內(nèi)容集合:給定一個描述圖像的 prompt,生成一個描述要進行的更改的文本指令和一個描述更改后圖像的 prompt(圖 2a);

使用文本轉(zhuǎn)圖像模型將兩個文本 prompt(即編輯之前和編輯之后)轉(zhuǎn)換為一對對應(yīng)的圖像(圖 2b)。

InstructPix2Pix

研究者使用生成的訓練數(shù)據(jù)來訓練一個條件擴散模型,該模型基于 Stable Diffusion 模型,可以根據(jù)書面指令編輯圖像。

擴散模型學習通過一系列估計數(shù)據(jù)分布分數(shù)(指向高密度數(shù)據(jù)的方向)的去噪自編碼器來生成數(shù)據(jù)樣本。Latent diffusion 通過在預(yù)訓練的具有編碼器9c0d0816-68e0-11ed-8abf-dac502259ad0.jpg和解碼器9c212774-68e0-11ed-8abf-dac502259ad0.png的變分自編碼器的潛空間中操作來提高擴散模型的效率和質(zhì)量。

對于一個圖像 x,擴散過程向編碼的 latent9c30754e-68e0-11ed-8abf-dac502259ad0.png 中添加噪聲,它產(chǎn)生一個有噪聲的 latent z_t,其中噪聲水平隨時間步 t∈T 而增加。研究者學習一個網(wǎng)絡(luò)9c47b45c-68e0-11ed-8abf-dac502259ad0.png,它在給定圖像調(diào)節(jié) C_I 和文本指令調(diào)節(jié) C_T 的情況下,預(yù)測添加到帶噪 latent z_t 中的噪聲。研究者將以下 latent 擴散目標最小化:

9c56efc6-68e0-11ed-8abf-dac502259ad0.png

此前,曾有研究(Wang et al.)表明,對于圖像翻譯(image translation)任務(wù),尤其是在成對訓練數(shù)據(jù)有限的情況下,微調(diào)大型圖像擴散模型優(yōu)于從頭訓練。因此在新研究中,作者使用預(yù)訓練的 Stable Diffusion checkpoint 初始化模型的權(quán)重,利用其強大的文本到圖像生成能力。

為了支持圖像調(diào)節(jié),研究人員向第一個卷積層添加額外的輸入通道,連接 z_t 和9c6c4e84-68e0-11ed-8abf-dac502259ad0.png。擴散模型的所有可用權(quán)重都從預(yù)訓練的 checkpoint 初始化,同時在新添加的輸入通道上運行的權(quán)重被初始化為零。作者在這里重用最初用于 caption 的相同的文本調(diào)節(jié)機制,而沒有將文本編輯指令 c_T 作為輸入。

實驗結(jié)果

在下面這些圖中,作者展示了他們新模型的圖像編輯結(jié)果。這些結(jié)果針對一組不同的真實照片和藝術(shù)品。新模型成功地執(zhí)行了許多具有挑戰(zhàn)性的編輯,包括替換對象、改變季節(jié)和天氣、替換背景、修改材料屬性、轉(zhuǎn)換藝術(shù)媒介等等。

9c7d6070-68e0-11ed-8abf-dac502259ad0.png

9c9c2c30-68e0-11ed-8abf-dac502259ad0.png

9cbfe2ec-68e0-11ed-8abf-dac502259ad0.png

9d0131f2-68e0-11ed-8abf-dac502259ad0.png

研究人員將新方法與最近的一些技術(shù),如 SDEdit、Text2Live 等進行了比較。新模型遵循編輯圖像的說明,而其他方法(包括基準方法)需要對圖像或編輯層進行描述。因此在比較時,作者對后者提供「編輯后」的文本標注代替編輯說明。作者還把新方法和 SDEdit 進行定量比較,使用兩個衡量圖像一致性和編輯質(zhì)量的指標。最后,作者展示了生成訓練數(shù)據(jù)的大小和質(zhì)量如何影響模型性能的消融結(jié)果。

9d37cba4-68e0-11ed-8abf-dac502259ad0.png

9d656320-68e0-11ed-8abf-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41132
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    34781

    瀏覽量

    277150
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3504

    瀏覽量

    50208

原文標題:GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    ?Diffusion生成式動作引擎技術(shù)解析

    Diffusion生成式動作引擎 Diffusion生成式動作引擎是種基于擴散模型Diffusion Models)的生成式人工智能技術(shù)
    的頭像 發(fā)表于 03-17 15:14 ?1683次閱讀

    使用OpenVINO GenAI和LoRA適配器進行圖像生成

    借助生成式 AI 模型(如 Stable Diffusion 和 FLUX.1),用戶可以將平平無奇的文本提示詞轉(zhuǎn)換為令人驚艷的視覺效果。
    的頭像 發(fā)表于 03-12 13:49 ?754次閱讀
    使用OpenVINO GenAI和LoRA適配器進行圖像生成

    為什么Caffe模型可以直接與OpenVINO?工具套件推斷引擎API一起使用,而無法轉(zhuǎn)換為中間表示 (IR)?

    推斷 Caffe 模型直接基于 英特爾? 神經(jīng)電腦棒 2 (英特爾? NCS2)。 無法確定為什么 Caffe 模型可以直接與OpenVINO?工具套件推斷引擎 API 一起使用,而無法轉(zhuǎn)換為中間表示 (IR)。
    發(fā)表于 03-05 06:31

    OpenAI即將推出GPT-5模型

    先進技術(shù),其中包括備受矚目的o3工具。通過整合這些技術(shù),GPT-5模型將實現(xiàn)更加強大的功能和性能。 值得提的是,GPT-5
    的頭像 發(fā)表于 02-13 11:21 ?566次閱讀

    AN-166:與Linduino一起飛行中更新

    電子發(fā)燒友網(wǎng)站提供《AN-166:與Linduino一起飛行中更新.pdf》資料免費下載
    發(fā)表于 01-12 10:09 ?0次下載
    AN-166:與Linduino<b class='flag-5'>一起</b>飛行中更新

    將UCC39002與3個PT4484模塊一起使用

    電子發(fā)燒友網(wǎng)站提供《將UCC39002與3個PT4484模塊一起使用.pdf》資料免費下載
    發(fā)表于 12-21 10:23 ?0次下載
    將UCC39002與<b class='flag-5'>3</b>個PT4484模塊<b class='flag-5'>一起</b>使用

    如何開啟Stable Diffusion WebUI模型推理部署

    如何開啟Stable Diffusion WebUI模型推理部署
    的頭像 發(fā)表于 12-11 20:13 ?511次閱讀
    如何開啟<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> WebUI<b class='flag-5'>模型</b>推理部署

    深信服發(fā)布安全GPT4.0數(shù)據(jù)安全大模型

    近日,深信服在數(shù)據(jù)安全領(lǐng)域邁出了重要步,正式發(fā)布了安全GPT4.0數(shù)據(jù)安全大模型。這創(chuàng)新的大模型技術(shù),旨在為用戶提供更高效、精準的數(shù)據(jù)安
    的頭像 發(fā)表于 10-29 11:12 ?589次閱讀

    Llama 3GPT-4 比較

    隨著人工智能技術(shù)的飛速發(fā)展,我們見證了代又代的AI模型不斷突破界限,為各行各業(yè)帶來革命性的變化。在這場技術(shù)競賽中,Llama 3GPT
    的頭像 發(fā)表于 10-27 14:17 ?1110次閱讀

    英偉達預(yù)測機器人領(lǐng)域或迎“GPT-3時刻”

    未來2-3年內(nèi),機器人基礎(chǔ)模型的研究將迎來重大突破,這時刻被形象地比喻為機器人領(lǐng)域的“GPT-3時刻”。
    的頭像 發(fā)表于 09-20 17:05 ?1050次閱讀

    Jim Fan展望:機器人領(lǐng)域即將迎來GPT-3式突破

    英偉達科學家9月19日,科技媒體The Decoder發(fā)布了則引人關(guān)注的報道,英偉達高級科學家Jim Fan在近期預(yù)測,機器人技術(shù)將在未來兩到三年內(nèi)迎來類似GPT-3在語言處理領(lǐng)域的革命性突破,他稱之為機器人領(lǐng)域的“GPT-3
    的頭像 發(fā)表于 09-19 15:13 ?907次閱讀

    Pura 70系列AI大師再上新!小藝AI擴開啟魔幻新體驗

    在智能手機攝影日漸火熱的今天,我們對于手機影像能力的要求也更加精細。此前,HUAWEI Pura 70系列的小藝AI消除功能經(jīng)首發(fā)上線,便廣受關(guān)注和喜愛,為滿足大家日益多元化的需求
    的頭像 發(fā)表于 08-01 13:22 ?1322次閱讀

    普通門電路的輸出端能否連在一起

    普通門電路的輸出端能否連在一起,取決于具體的應(yīng)用場景和需求。普通門電路的輸出端能否連在一起個復(fù)雜的問題,涉及到數(shù)字電路設(shè)計、邏輯電路分析、信號完整性、電源管理等多個方面。 門電路的
    的頭像 發(fā)表于 07-30 15:13 ?1731次閱讀

    實操: 如何在AirBox上跑Stable Diffusion 3

    StableDiffusion3Medium是種多模態(tài)擴散變換器(MMDiT)文本到圖像模型,在圖像質(zhì)量、排版、復(fù)雜提示理解和資源效率方面具有顯著提升的性能。目前瑞莎團隊
    的頭像 發(fā)表于 07-23 08:34 ?560次閱讀
    實操: 如何在AirBox上跑<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> <b class='flag-5'>3</b>

    OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

    GPT-4. GPT-4o mini的定價為每百萬輸入標記15美分和每百萬輸出標記60美分,比之前的前沿模型便宜了個數(shù)量級,比GPT-3.
    的頭像 發(fā)表于 07-21 10:20 ?1644次閱讀
    OpenAI 推出 <b class='flag-5'>GPT</b>-4o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> 4 而且更快 API KEY更便宜
    主站蜘蛛池模板: 一级做a爱免费观看视频 | 狠狠狠色丁香婷婷综合久久五月 | 国产特黄一级毛片特黄 | 在线观看你懂的视频 | 欧美性久久 | 日韩成人免费观看 | 第四色播日韩第一页 | 免费一级毛片不卡在线播放 | 波多野结衣在线一区 | 国产v精品成人免费视频400条 | 国产成人精品男人的天堂538 | 亚洲色图综合图区 | 一级福利视频 | 天天爱天天干天天 | 欧美日韩影院 | 56pao强力打造| 色妞网站 | 四虎最新永久在线精品免费 | 天堂ww| 五月天婷婷免费观看视频在线 | 欧美成人伊人十综合色 | 四虎国产精品免费观看 | 片黄免费 | 四虎在线观看免费视频 | 在线观看视频高清视频 | 欧美视频图片 | 国产美女视频一区二区二三区 | 7m凹凸精品分类大全免费 | 性xxxxfreexxxxx国产 | 四虎影视免费观看 | 午夜视频一区二区 | 快色视频免费观看 | 九九re热 | 性视频在线| 夜色成人| 精品热99 | 亚洲午夜久久久久影院 | 国产精品成人va在线观看入口 | 国模私拍在线视频 | 日韩成人免费观看 | 成年黄网站免费大全毛片 |