在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

智能感知與物聯網技術研究所 ? 來源:智能感知與物聯網技術研 ? 作者:智能感知與物聯網 ? 2022-11-21 11:57 ? 次閱讀

AI 可以完全按照甲方意愿修圖?GPT-3、Stable Diffusion 一起助攻,讓模型秒變 PS 高手,改圖隨心所欲。

擴散模型大火之后,很多人將注意力放到了如何利用更有效的 prompt 生成自己想要的圖像。在對于一些 AI 作畫模型的不斷嘗試中,人們甚至總結出了讓 AI 好好出圖的關鍵詞經驗:

9b0c2b0e-68e0-11ed-8abf-dac502259ad0.jpg

也就是說,如果掌握了正確的 AI 話術,作圖質量提升效果將非常明顯(參見:《「羊駝打籃球」怎么畫?有人花了 13 美元逼 DALL·E 2 亮出真本事 》)。

此外,還有一部分研究者在往另一個方向努力:如何動動嘴皮子就把一幅畫改成我們想要的樣子。

前段時間,我們報道了一項來自谷歌研究院等機構的研究。只要說出你想讓一幅圖變成什么樣子,它就能基本滿足你的要求,生成照片級的圖像,例如讓一只小狗坐下:

9b1bd0f4-68e0-11ed-8abf-dac502259ad0.png

這里給模型的輸入描述是「一只坐下的狗」,但是按照人們的日常交流習慣,最自然的描述應該是「讓這只狗坐下」。有研究者認為這是一個應該優化的問題,模型應該更符合人類的語言習慣。

最近,來自 UC 伯克利的研究團隊提出了一種根據人類指令編輯圖像的新方法 InstructPix2Pix:給定輸入圖像和告訴模型要做什么的文本描述,模型就能遵循描述指令來編輯圖像。

9b87dce0-68e0-11ed-8abf-dac502259ad0.png

論文地址:https://arxiv.org/pdf/2211.09800.pdf

例如,要把畫中的向日葵換成玫瑰,你只需要直接對模型說「把向日葵換成玫瑰」:

9b992ebe-68e0-11ed-8abf-dac502259ad0.png

為了獲得訓練數據,該研究將兩個大型預訓練模型——語言模型 (GPT-3) 和文本到圖像生成模型 (Stable Diffusion) 結合起來,生成圖像編輯示例的大型成對訓練數據集。研究者在這個大型數據集上訓練了新模型 InstructPix2Pix,并在推理時泛化到真實圖像和用戶編寫的指令上。

InstructPix2Pix 是一個條件擴散模型,給定一個輸入圖像和一個編輯圖像的文本指令,它就能生成編輯后的圖像。該模型直接在前向傳播(forward pass)中執行圖像編輯,不需要任何額外的示例圖像、輸入 / 輸出圖像的完整描述或每個示例的微調,因此該模型僅需幾秒就能快速編輯圖像。

盡管 InstructPix2Pix 完全是在合成示例(即 GPT-3 生成的文本描述和 Stable Diffusion 生成的圖像)上進行訓練的,但該模型實現了對任意真實圖像和人類編寫文本的零樣本泛化。該模型支持直觀的圖像編輯,包括替換對象、更改圖像風格等等。

9bb17bea-68e0-11ed-8abf-dac502259ad0.png

方法概覽

研究者將基于指令的圖像編輯視為一個監督學習問題:首先,他們生成了一個包含文本編輯指令和編輯前后圖像的成對訓練數據集(圖 2a-c),然后在這個生成的數據集上訓練了一個圖像編輯擴散模型(圖 2d)。盡管訓練時使用的是生成的圖像和編輯指令,但模型仍然能夠使用人工編寫的任意指令來編輯真實的圖像。下圖 2 是方法概述。

9bf20a52-68e0-11ed-8abf-dac502259ad0.png

生成一個多模態訓練數據集

在數據集生成階段,研究者結合了一個大型語言模型(GPT-3)和一個文本轉圖像模型(Stable Diffusion)的能力,生成了一個包含文本編輯指令和編輯前后對應圖像的多模態訓練數據集。這一過程包含以下步驟:

微調 GPT-3 以生成文本編輯內容集合:給定一個描述圖像的 prompt,生成一個描述要進行的更改的文本指令和一個描述更改后圖像的 prompt(圖 2a);

使用文本轉圖像模型將兩個文本 prompt(即編輯之前和編輯之后)轉換為一對對應的圖像(圖 2b)。

InstructPix2Pix

研究者使用生成的訓練數據來訓練一個條件擴散模型,該模型基于 Stable Diffusion 模型,可以根據書面指令編輯圖像。

擴散模型學習通過一系列估計數據分布分數(指向高密度數據的方向)的去噪自編碼器來生成數據樣本。Latent diffusion 通過在預訓練的具有編碼器9c0d0816-68e0-11ed-8abf-dac502259ad0.jpg和解碼器9c212774-68e0-11ed-8abf-dac502259ad0.png的變分自編碼器的潛空間中操作來提高擴散模型的效率和質量。

對于一個圖像 x,擴散過程向編碼的 latent9c30754e-68e0-11ed-8abf-dac502259ad0.png 中添加噪聲,它產生一個有噪聲的 latent z_t,其中噪聲水平隨時間步 t∈T 而增加。研究者學習一個網絡9c47b45c-68e0-11ed-8abf-dac502259ad0.png,它在給定圖像調節 C_I 和文本指令調節 C_T 的情況下,預測添加到帶噪 latent z_t 中的噪聲。研究者將以下 latent 擴散目標最小化:

9c56efc6-68e0-11ed-8abf-dac502259ad0.png

此前,曾有研究(Wang et al.)表明,對于圖像翻譯(image translation)任務,尤其是在成對訓練數據有限的情況下,微調大型圖像擴散模型優于從頭訓練。因此在新研究中,作者使用預訓練的 Stable Diffusion checkpoint 初始化模型的權重,利用其強大的文本到圖像生成能力。

為了支持圖像調節,研究人員向第一個卷積層添加額外的輸入通道,連接 z_t 和9c6c4e84-68e0-11ed-8abf-dac502259ad0.png。擴散模型的所有可用權重都從預訓練的 checkpoint 初始化,同時在新添加的輸入通道上運行的權重被初始化為零。作者在這里重用最初用于 caption 的相同的文本調節機制,而沒有將文本編輯指令 c_T 作為輸入。

實驗結果

在下面這些圖中,作者展示了他們新模型的圖像編輯結果。這些結果針對一組不同的真實照片和藝術品。新模型成功地執行了許多具有挑戰性的編輯,包括替換對象、改變季節和天氣、替換背景、修改材料屬性、轉換藝術媒介等等。

9c7d6070-68e0-11ed-8abf-dac502259ad0.png

9c9c2c30-68e0-11ed-8abf-dac502259ad0.png

9cbfe2ec-68e0-11ed-8abf-dac502259ad0.png

9d0131f2-68e0-11ed-8abf-dac502259ad0.png

研究人員將新方法與最近的一些技術,如 SDEdit、Text2Live 等進行了比較。新模型遵循編輯圖像的說明,而其他方法(包括基準方法)需要對圖像或編輯層進行描述。因此在比較時,作者對后者提供「編輯后」的文本標注代替編輯說明。作者還把新方法和 SDEdit 進行定量比較,使用兩個衡量圖像一致性和編輯質量的指標。最后,作者展示了生成訓練數據的大小和質量如何影響模型性能的消融結果。

9d37cba4-68e0-11ed-8abf-dac502259ad0.png

9d656320-68e0-11ed-8abf-dac502259ad0.png

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1089

    瀏覽量

    40599
  • AI
    AI
    +關注

    關注

    87

    文章

    31834

    瀏覽量

    270610
  • 模型
    +關注

    關注

    1

    文章

    3371

    瀏覽量

    49293

原文標題:GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    OpenAI即將推出GPT-5模型

    先進技術,其中包括備受矚目的o3工具。通過整合這些技術,GPT-5模型將實現更加強大的功能和性能。 值得提的是,GPT-5
    的頭像 發表于 02-13 11:21 ?246次閱讀

    將UCC39002與3個PT4484模塊一起使用

    電子發燒友網站提供《將UCC39002與3個PT4484模塊一起使用.pdf》資料免費下載
    發表于 12-21 10:23 ?0次下載
    將UCC39002與<b class='flag-5'>3</b>個PT4484模塊<b class='flag-5'>一起</b>使用

    如何開啟Stable Diffusion WebUI模型推理部署

    如何開啟Stable Diffusion WebUI模型推理部署
    的頭像 發表于 12-11 20:13 ?213次閱讀
    如何開啟<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> WebUI<b class='flag-5'>模型</b>推理部署

    Llama 3GPT-4 比較

    隨著人工智能技術的飛速發展,我們見證了代又代的AI模型不斷突破界限,為各行各業帶來革命性的變化。在這場技術競賽中,Llama 3GPT
    的頭像 發表于 10-27 14:17 ?597次閱讀

    英偉達預測機器人領域或迎“GPT-3時刻”

    未來2-3年內,機器人基礎模型的研究將迎來重大突破,這時刻被形象地比喻為機器人領域的“GPT-3時刻”。
    的頭像 發表于 09-20 17:05 ?867次閱讀

    Jim Fan展望:機器人領域即將迎來GPT-3式突破

    英偉達科學家9月19日,科技媒體The Decoder發布了則引人關注的報道,英偉達高級科學家Jim Fan在近期預測,機器人技術將在未來兩到三年內迎來類似GPT-3在語言處理領域的革命性突破,他稱之為機器人領域的“GPT-3
    的頭像 發表于 09-19 15:13 ?668次閱讀

    實操: 如何在AirBox上跑Stable Diffusion 3

    StableDiffusion3Medium是種多模態擴散變換器(MMDiT)文本到圖像模型,在圖像質量、排版、復雜提示理解和資源效率方面具有顯著提升的性能。目前瑞莎團隊
    的頭像 發表于 07-23 08:34 ?338次閱讀
    實操: 如何在AirBox上跑<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> <b class='flag-5'>3</b>

    為什么GPU適用于AI?AI服務器產業鏈格局分析

    GPT模型對比BERT模型、T5模型的參數量有明顯提升。GPT-3是目前最大的知名語言模型
    發表于 04-09 10:38 ?1093次閱讀
    為什么GPU適用于AI?AI服務器產業鏈格局分析

    Stability AI發布Stable Code Instruct 3B大語言模型,可編譯多種編程語言

    據報道,Stability AI公司近期推出了適配程序員使用的Stable Code Instruct 3B大語言模型,此款模型的顯著特點是能夠實現編程語言間的自如切換。
    的頭像 發表于 03-27 10:04 ?598次閱讀

    Stability AI推出全新Stable Video 3D模型

    近日,Stability AI 推出了全新的 Stable Video 3D 模型,該模型以其獨特的功能吸引了眾多關注。此模型具備從單張圖像
    的頭像 發表于 03-22 10:30 ?963次閱讀

    全球最強大模型易主,GPT-4被超越

    近日,AI領域的領軍企業Anthropic宣布推出全新的Claude 3系列模型,其中包括最強版Claude 3 Opus。據該公司稱,Claude 3系列在推理、數學、編碼、多語言理
    的頭像 發表于 03-05 09:58 ?724次閱讀

    Anthropic推出Claude 3系列模型,全面超越GPT-4,樹立AI新標桿

    近日,AI領域的領軍企業Anthropic震撼發布了全新的Claude 3系列模型,該系列模型在多模態和語言能力等關鍵領域展現出卓越性能,成功擊敗了此前被廣泛認為是全球最強AI模型
    的頭像 發表于 03-05 09:49 ?770次閱讀

    韓國科研團隊發布新型AI圖像生成模型KOALA,大幅優化硬件需求

    由此模型的核心在于其運用了“知識蒸餾”(knowledge distillation)技術,這使得開源圖像生成工具Stable Diffusion XL可大幅縮小其規模。原Stable
    的頭像 發表于 03-01 14:10 ?717次閱讀

    OpenAI視頻模型Sora的架構及應用場景

    LDM 就是 Stable Diffusion 使用的模型架構。擴散模型大問題是計算需求大,
    發表于 02-20 15:13 ?708次閱讀
    OpenAI視頻<b class='flag-5'>模型</b>Sora的架構及應用場景

    Stability AI試圖通過新的圖像生成人工智能模型保持領先地位

    Stability AI的最新圖像生成模型Stable Cascade承諾比其業界領先的前身Stable Diffusion更快、更強大,而Stab
    的頭像 發表于 02-19 16:03 ?1010次閱讀
    Stability AI試圖通過新的圖像生成人工智能<b class='flag-5'>模型</b>保持領先地位
    主站蜘蛛池模板: 丁香婷婷久久大综合 | 四虎国产精品影库永久免费 | 97人摸人人澡人人人超一碰 | 久久久久久免费播放一级毛片 | aa视频在线观看 | 亚洲欧美视频一区二区三区 | 中文字幕在线观看你懂的 | 国产午夜视频在永久在线观看 | 国产成人夜间影院在线观看 | 日本加勒比在线精品视频 | 美国bj69 video18| 午夜视频福利 | 四虎精品免费国产成人 | 伊人天天干| 色噜噜噜噜噜在线观看网站 | 国产女人18毛片水真多18精品 | 五月婷婷六月激情 | 美女视频很黄很a免费国产 美女视频很黄很暴黄是免费的 | 在线天堂bt种子 | a毛片基地免费全部香蕉 | 欧美精品成人a多人在线观看 | 免费免费啪视频在线 | 女人张开腿男人桶 | 91福利网站 | 婷婷色婷婷 | 五月天婷婷在线视频国产在线 | 午夜精品一区二区三区在线视 | 天天干天天操天天舔 | 九九热在线视频观看这里只有精品 | 亚洲日本黄色 | 扒开双腿猛进入jk校视频 | 老师下面好湿好紧好滑好想要 | 天堂自拍 | 绝色村妇的泛滥春情 | 男人和女人做爽爽视频在线观看 | 久久久久久久久久久观看 | 日本一区二区三区不卡在线视频 | 欧美tube6最新69 | 最近高清免费观看视频大全 | 亚洲精品成人a | 一道精品视频一区二区三区男同 |