在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AIGC可編輯的圖像生成方案

深度學(xué)習(xí)自然語言處理 ? 來源:Smarter ? 2023-03-03 09:25 ? 次閱讀

ControlNet給出的實(shí)驗(yàn)結(jié)果實(shí)在是過于驚艷了,近期視覺領(lǐng)域最讓人興奮的工作。可編輯圖像生成領(lǐng)域異常火熱,看了一些相關(guān)文章,選出幾篇感興趣的文章記錄一下。

9740c672-b91e-11ed-bfe3-dac502259ad0.png

從CLIP模型開始,OpenAI走通了大規(guī)模圖文對(duì)預(yù)訓(xùn)練模型的技術(shù)路徑,這代表著文字域和圖片域是可以很好的對(duì)齊;緊隨其后,OpenAI在CLIP的技術(shù)基礎(chǔ)上,發(fā)布了DALLE文字生成圖片的模型,生成圖片的質(zhì)量遠(yuǎn)超之前的模型,這主要得益于大規(guī)模圖文對(duì)預(yù)訓(xùn)練的CLIP模型;

與此同時(shí),Diffusion Models的圖像生成方法的圖像生成質(zhì)量也超越了以往的GAN、VAE等模型,并且隨著算法的精進(jìn),推理速度不斷加快,預(yù)示著Diffusion Models即將全面替代GAN、VAE等生成模型;果不其然,OpenAI將DALLE模型和Diffusion Models結(jié)合發(fā)布了DALLE2模型,生成圖片的質(zhì)量進(jìn)一步提高。

在DALLE2這個(gè)階段,雖然圖像生成質(zhì)量相比以往有了質(zhì)變,但是圖像生成的過程是不可控,這導(dǎo)致各種繪畫設(shè)計(jì)行業(yè)無法在工作中使用,況且DALLE2還沒有開源。隨著Stable Diffusion模型的發(fā)布和開源,可編輯圖像生成領(lǐng)域變得空前火熱,出現(xiàn)了各種各樣DIY的產(chǎn)物,Stable Diffusion模型算是一個(gè)關(guān)鍵的時(shí)間節(jié)點(diǎn)。

而在2023年2月份大概1周之內(nèi)同時(shí)涌現(xiàn)出了ControlNet、T2I-Adapter和Composer三個(gè)基于Stable Diffusion的可編輯圖像生成模型,其中ControlNet再一次帶熱了AI繪畫設(shè)計(jì)。

下面主要介紹一下Stable Diffusion、ControlNet、T2I-Adapter和Composer四篇文章,最后談?wù)剤D像結(jié)構(gòu)化和圖像生成之間的關(guān)系。

Stable Diffusion

975d2344-b91e-11ed-bfe3-dac502259ad0.png

Stable Diffusion模型在Diffusion Models(DM)的基礎(chǔ)上,增加了conditioning機(jī)制。

通過conditioning機(jī)制,可以將semantic map、text、representations和images等信息傳遞到DM模型中,通過cross-attention機(jī)制進(jìn)行信息的融合,通過多個(gè)step進(jìn)行擴(kuò)散生成圖片。

978088fc-b91e-11ed-bfe3-dac502259ad0.png

981dbdac-b91e-11ed-bfe3-dac502259ad0.png

如上面兩個(gè)結(jié)果圖所示,Stable Diffusion可以通過版面結(jié)構(gòu)圖或者語義分割圖來控制圖像的生成。

ControlNet

985ae10a-b91e-11ed-bfe3-dac502259ad0.png

ControlNet在Stable Diffusion(SD)的基礎(chǔ)上,鎖住SD的參數(shù),并且增加了一個(gè)可學(xué)習(xí)的分支,該分支的開頭和結(jié)尾都增加zero convolution(初始化參數(shù)為0),保證訓(xùn)練的穩(wěn)定性,并且Condition的特征會(huì)疊加回SD的Decoder特征上,進(jìn)而達(dá)到控制圖像生成的目的。

相比于SD模型,ControlNet有兩點(diǎn)區(qū)別:

ControlNet相比于SD,豐富了Condition的種類,總共9大類,包括Canny Edge、Canny Edge(Alter)、Hough Line、HED Boundary、User Sketching、Human Pose(Openpifpaf)、Human Pose(Openpose)、Semantic Segmentation(COCO)、Semantic Segmentation(ADE20K)、Depth(large-scale)、Depth(small-scale)、Normal Maps、Normal Maps(extended)和Cartoon Line Drawing。

ControlNet不需要重新訓(xùn)練SD模型,這極大的降低了可編輯圖像生成領(lǐng)域的門檻,減少二次開發(fā)的成本。

9885a78c-b91e-11ed-bfe3-dac502259ad0.png

從上圖可以看到,ControlNet可以先提取出動(dòng)物的Canny edge,然后再在Canny edge的基礎(chǔ)上渲染出不同風(fēng)格環(huán)境色彩的動(dòng)物圖片,amazing!

98a90326-b91e-11ed-bfe3-dac502259ad0.png

98cfac56-b91e-11ed-bfe3-dac502259ad0.png

990130f0-b91e-11ed-bfe3-dac502259ad0.png

9928ce3a-b91e-11ed-bfe3-dac502259ad0.png

9956bc96-b91e-11ed-bfe3-dac502259ad0.png

上圖是一些ControlNet圖像生成的例子,更多的例子可以閱讀原文。

T2I-Adapter

9973ea00-b91e-11ed-bfe3-dac502259ad0.png

T2I-Adapter跟ControlNet非常類似,主要不同有以下幾點(diǎn)區(qū)別:

T2I-Adapter可以同時(shí)組合輸入多種類型的Condition

T2I-Adapter是從SD的Encoder部分傳入Condition的

9988388e-b91e-11ed-bfe3-dac502259ad0.png

可以看到T2I-Adapter生成的圖像有著類似ControlNe的可編輯效果。

Composer

9a4ee7f4-b91e-11ed-bfe3-dac502259ad0.png

Composer跟ControlNet和T2I-Adapter的思路也是類似的,但是Composer提出了一個(gè)有意思的點(diǎn),就是可編輯圖像生成其實(shí)就是對(duì)圖像各種元素的組合,Composer先用各種不同的模型將各種不同的圖片分解成各種元素,然后將不同圖片的元素進(jìn)行重組。比如上圖的戴珍珠耳環(huán)的少女,可以分解成shape、semantics、sketch、masking、style、content、intensity、palette、文字等等元素,然后跟其他不同圖片的元素進(jìn)行想要的重組。

9a75adee-b91e-11ed-bfe3-dac502259ad0.png

Composer將各種元素區(qū)分成兩類,一類是Global Conditions,另一類是Localized Conditions。其中Global Conditions包括sentence embeddings, image embeddings, and color histograms,并且需要添加到Timestep中;Localized Conditions包括segmentation maps, depthmaps, sketches, grayscale images, and masked images,并且需要添加到Noisy Image中。

9a909b4a-b91e-11ed-bfe3-dac502259ad0.png

9b23f462-b91e-11ed-bfe3-dac502259ad0.png

上面圖像生成的結(jié)果,充分表現(xiàn)出了Composer模型可編輯的多樣性和豐富性。

圖像結(jié)構(gòu)化和圖像生成

我在這里將圖像檢測、圖像分割、深度估計(jì)等任務(wù)統(tǒng)稱為圖像結(jié)構(gòu)化。從某種意義上來說,圖像結(jié)構(gòu)化其實(shí)可以認(rèn)為是一種特殊的圖像生成,只不過生成的圖片是某個(gè)單一維度的特征,比如是深度圖、mask圖、關(guān)鍵點(diǎn)圖等等。ControlNet和Composer某種意義上就是將結(jié)構(gòu)化圖片通過文字控制來豐富細(xì)節(jié)進(jìn)而生成想要的圖片;而圖像結(jié)構(gòu)化其實(shí)就是把維度復(fù)雜、細(xì)節(jié)豐富的圖片生成維度單一、細(xì)節(jié)簡單的結(jié)構(gòu)化圖片。

圖像結(jié)構(gòu)化和圖像生成其實(shí)也就是對(duì)應(yīng)著Composer文章里面提到的分解和合成兩個(gè)過程。我對(duì)于可編輯圖像生成領(lǐng)域未來的想法是,盡可能準(zhǔn)確豐富的提取圖像中各個(gè)維度的結(jié)構(gòu)化信息(包括文字信息),然后通過Stable Diffusion模型組合融入想要的結(jié)構(gòu)化信息,進(jìn)而達(dá)到完全自主可控的圖像生成。

總結(jié)

可編輯的圖像生成其實(shí)蘊(yùn)含著人機(jī)交互的思想,人的意志通過輸入的文字提示和圖片提示傳遞給模型,而模型(或者說是機(jī)器)生成的圖片恰好反映出了人的思想。可編輯圖像生成會(huì)改變繪畫設(shè)計(jì)等領(lǐng)域的創(chuàng)作模式(比如公仔服裝周邊等等,可以無限壓縮設(shè)計(jì)繪畫的時(shí)間),進(jìn)而孕育出新的更有活力的創(chuàng)業(yè)公司,互聯(lián)網(wǎng)行業(yè)可能會(huì)迎來第二增長曲線。






審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Clip
    +關(guān)注

    關(guān)注

    0

    文章

    31

    瀏覽量

    6726
  • GaN器件
    +關(guān)注

    關(guān)注

    1

    文章

    37

    瀏覽量

    7938
  • OpenAI
    +關(guān)注

    關(guān)注

    9

    文章

    1171

    瀏覽量

    6771
  • AIGC
    +關(guān)注

    關(guān)注

    1

    文章

    368

    瀏覽量

    1627

原文標(biāo)題:AIGC—可編輯的圖像生成

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于擴(kuò)散模型的圖像生成過程

    近年來,擴(kuò)散模型在文本到圖像生成方面取得了巨大的成功,實(shí)現(xiàn)了更高圖像生成質(zhì)量,提高了推理性能,也可以激發(fā)擴(kuò)展創(chuàng)作靈感。 不過僅憑文本來控制圖像
    的頭像 發(fā)表于 07-17 11:00 ?2890次閱讀
    基于擴(kuò)散模型的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>過程

    AIGC入門及鴻蒙入門

    Generated Content,即人工智能生成內(nèi)容。它利用人工智能技術(shù)自動(dòng)生成或輔助生成文本、圖像、音頻、視頻等內(nèi)容。 AIGC的核心
    發(fā)表于 01-13 10:32

    #新年新氣象,大家新年快樂!#AIGC入門及鴻蒙入門

    Generated Content,即人工智能生成內(nèi)容。它利用人工智能技術(shù)自動(dòng)生成或輔助生成文本、圖像、音頻、視頻等內(nèi)容。 AIGC的核心
    發(fā)表于 01-13 10:46

    RTthread移植代碼自動(dòng)生成方案

    RTthread再學(xué)習(xí)記錄前言一、RTthread移植代碼自動(dòng)生成方案二、使用CUBEMX在STM32F4上移植RTT1.官方提供的教程2.解決RTT移植的一些細(xì)節(jié)問題總結(jié)提示:文章寫完后,目錄可以
    發(fā)表于 02-11 06:29

    一種全新的遙感圖像描述生成方

    遙感圖像描述生成是同時(shí)涉及計(jì)算機(jī)視覺和自然語言處理領(lǐng)域的熱門研究話題,其主要工作是對(duì)于給定的圖像自動(dòng)地生成一個(gè)對(duì)該圖像的描述語句。文中提岀了
    發(fā)表于 04-20 11:21 ?2次下載
    一種全新的遙感<b class='flag-5'>圖像</b>描述<b class='flag-5'>生成方</b>法

    基于模板、檢索和深度學(xué)習(xí)的圖像描述生成方

    描述技術(shù)的發(fā)展歷程為主線,對(duì)圖像描述任務(wù)的方法、評(píng)價(jià)指標(biāo)和常用數(shù)據(jù)集進(jìn)行了詳細(xì)的綜述。針對(duì)圖像描述任務(wù)的技術(shù)方法,總結(jié)了基于模板、檢索和深度學(xué)習(xí)的圖像描述生成方法,重點(diǎn)介紹了基于深度學(xué)
    發(fā)表于 04-23 14:07 ?12次下載
    基于模板、檢索和深度學(xué)習(xí)的<b class='flag-5'>圖像</b>描述<b class='flag-5'>生成方</b>法

    GAN圖像對(duì)抗樣本生成方法研究綜述

    為了提高生成對(duì)抗網(wǎng)絡(luò)模型對(duì)抗樣本的多樣性和攻擊成功率,提出了一種GAN圖像對(duì)抗樣本生成方法。首先,利用原始樣本集整體訓(xùn)練一個(gè)深度卷積對(duì)抗生成網(wǎng)絡(luò)G1,模擬原始樣本集分布;其次,在黑盒攻
    發(fā)表于 04-28 16:39 ?72次下載
    GAN<b class='flag-5'>圖像</b>對(duì)抗樣本<b class='flag-5'>生成方</b>法研究綜述

    基于圖像驅(qū)動(dòng)的三維人臉自動(dòng)生成編輯算法

    基于圖像驅(qū)動(dòng)的三維人臉自動(dòng)生成編輯算法
    發(fā)表于 06-25 17:09 ?27次下載

    AIGC最新綜述:從GAN到ChatGPT的AI生成歷史

    本調(diào)查全面回顧了生成模型的歷史、基本組件、AIGC 從單模態(tài)交互和多模態(tài)交互的最新進(jìn)展。我們從單峰性的角度介紹了文本和圖像生成任務(wù)和相關(guān)模型。我們從多模態(tài)的角度來介紹上述模態(tài)之間的交
    的頭像 發(fā)表于 03-13 10:13 ?2903次閱讀

    伯克利AI實(shí)驗(yàn)室開源圖像編輯模型InstructPix2Pix,簡化生成圖像編輯并提供一致結(jié)果

    之前的 AI 圖像編輯能力通常是進(jìn)行風(fēng)格轉(zhuǎn)換,流行的文本到圖像生成模型(如 DALL-E 和 Stable Diffusion)也支持圖像圖像
    的頭像 發(fā)表于 08-28 15:45 ?920次閱讀
    伯克利AI實(shí)驗(yàn)室開源<b class='flag-5'>圖像編輯</b>模型InstructPix2Pix,簡化<b class='flag-5'>生成</b><b class='flag-5'>圖像編輯</b>并提供一致結(jié)果

    微軟AI新成果:將不可編輯PDF轉(zhuǎn)化為可編輯文檔

    市面現(xiàn)有相關(guān)軟件雖能將PDF轉(zhuǎn)為可編輯版,但易喪失原始布局。微軟研究論文名為《從不可編輯文檔生成可編輯文檔的方法和系統(tǒng)》,其獨(dú)特之處在于運(yùn)用AI技術(shù)保持了字體、色彩、布局及
    的頭像 發(fā)表于 05-30 10:11 ?862次閱讀

    AIGC與傳統(tǒng)內(nèi)容生成的區(qū)別

    AIGC : 主要面向非結(jié)構(gòu)化數(shù)據(jù)的生成,如自然語言文本、圖像、音頻、視頻等。 這類數(shù)據(jù)規(guī)模更大,內(nèi)在結(jié)構(gòu)更復(fù)雜,對(duì)處理技術(shù)提出了更高要求。 傳統(tǒng)內(nèi)容生成 : 主要處理結(jié)構(gòu)化數(shù)據(jù),如
    的頭像 發(fā)表于 10-25 15:13 ?587次閱讀

    AIGC生成內(nèi)容的優(yōu)勢(shì)與挑戰(zhàn)

    人工智能生成內(nèi)容(AIGC,Artificial Intelligence Generated Content)是指利用人工智能技術(shù)自動(dòng)生成文本、圖像、音頻和視頻等內(nèi)容的過程。隨著深度
    的頭像 發(fā)表于 10-25 15:36 ?768次閱讀

    AIGC是什么及其應(yīng)用 AIGC的定義和工作原理

    AIGC的定義 AIGC是一種新興的技術(shù)領(lǐng)域,它結(jié)合了機(jī)器學(xué)習(xí)、自然語言處理(NLP)、計(jì)算機(jī)視覺和音頻處理等多個(gè)子領(lǐng)域。AIGC的目標(biāo)是使計(jì)算機(jī)能夠理解、生成
    的頭像 發(fā)表于 11-22 16:00 ?1562次閱讀

    AIGC與傳統(tǒng)內(nèi)容生成的區(qū)別 AIGC的優(yōu)勢(shì)和挑戰(zhàn)

    AIGC與傳統(tǒng)內(nèi)容生成的區(qū)別 數(shù)據(jù)類型與處理 : AIGC主要面向非結(jié)構(gòu)化數(shù)據(jù)的生成,如自然語言文本、圖像、音頻、視頻等。這類數(shù)據(jù)規(guī)模更大
    的頭像 發(fā)表于 11-22 16:04 ?483次閱讀
    主站蜘蛛池模板: 亚洲第一精品夜夜躁人人爽 | 狠狠色丁香婷婷综合橹不卡 | 亚洲男人的天堂久久香蕉 | 激情五月激情综合色区 | 免费看的一级毛片 | 国产好深好硬好爽我还要视频 | 成人在线一区二区 | 黄网站免费视频 | 中文字幕一区在线观看 | 色丁香婷婷 | 久久婷婷国产精品香蕉 | 天堂网最新版www中文 | 午夜网站在线观看 | 我不卡老子影院午夜伦我不卡四虎 | 5g国产精品影院天天5g天天爽 | 男人视频网 | 西西人体44rt高清午夜 | 狠狠色狠狠色综合久久一 | 天天摸夜夜摸成人免费视频 | 精品精品国产自在久久高清 | 欧美女同在线观看 | 久久伊人成人 | 国产资源网站 | 91人成网站色www免费 | 末发育女一区二区三区 | 五月激情啪啪网 | 日韩一级欧美一级一级国产 | 久久中文字幕一区二区 | 日本一区二区免费在线观看 | 天天爱天天插 | 国产操比视频 | 二级黄绝大片中国免费视频0 | 天天操天天摸天天干 | 久久青草国产免费观看 | 噜噜色小说 | 黄色网页在线观看 | 天堂中文www在线 | 国产永久免费爽视频在线 | 欧美色吧视频在线观看 | 国产小视频在线播放 | 黄视频网站在线观看 |