ControlNet給出的實(shí)驗(yàn)結(jié)果實(shí)在是過于驚艷了,近期視覺領(lǐng)域最讓人興奮的工作。可編輯圖像生成領(lǐng)域異常火熱,看了一些相關(guān)文章,選出幾篇感興趣的文章記錄一下。
從CLIP模型開始,OpenAI走通了大規(guī)模圖文對(duì)預(yù)訓(xùn)練模型的技術(shù)路徑,這代表著文字域和圖片域是可以很好的對(duì)齊;緊隨其后,OpenAI在CLIP的技術(shù)基礎(chǔ)上,發(fā)布了DALLE文字生成圖片的模型,生成圖片的質(zhì)量遠(yuǎn)超之前的模型,這主要得益于大規(guī)模圖文對(duì)預(yù)訓(xùn)練的CLIP模型;
與此同時(shí),Diffusion Models的圖像生成方法的圖像生成質(zhì)量也超越了以往的GAN、VAE等模型,并且隨著算法的精進(jìn),推理速度不斷加快,預(yù)示著Diffusion Models即將全面替代GAN、VAE等生成模型;果不其然,OpenAI將DALLE模型和Diffusion Models結(jié)合發(fā)布了DALLE2模型,生成圖片的質(zhì)量進(jìn)一步提高。
在DALLE2這個(gè)階段,雖然圖像生成質(zhì)量相比以往有了質(zhì)變,但是圖像生成的過程是不可控,這導(dǎo)致各種繪畫設(shè)計(jì)行業(yè)無法在工作中使用,況且DALLE2還沒有開源。隨著Stable Diffusion模型的發(fā)布和開源,可編輯圖像生成領(lǐng)域變得空前火熱,出現(xiàn)了各種各樣DIY的產(chǎn)物,Stable Diffusion模型算是一個(gè)關(guān)鍵的時(shí)間節(jié)點(diǎn)。
而在2023年2月份大概1周之內(nèi)同時(shí)涌現(xiàn)出了ControlNet、T2I-Adapter和Composer三個(gè)基于Stable Diffusion的可編輯圖像生成模型,其中ControlNet再一次帶熱了AI繪畫設(shè)計(jì)。
下面主要介紹一下Stable Diffusion、ControlNet、T2I-Adapter和Composer四篇文章,最后談?wù)剤D像結(jié)構(gòu)化和圖像生成之間的關(guān)系。
Stable Diffusion
Stable Diffusion模型在Diffusion Models(DM)的基礎(chǔ)上,增加了conditioning機(jī)制。
通過conditioning機(jī)制,可以將semantic map、text、representations和images等信息傳遞到DM模型中,通過cross-attention機(jī)制進(jìn)行信息的融合,通過多個(gè)step進(jìn)行擴(kuò)散生成圖片。
如上面兩個(gè)結(jié)果圖所示,Stable Diffusion可以通過版面結(jié)構(gòu)圖或者語義分割圖來控制圖像的生成。
ControlNet
ControlNet在Stable Diffusion(SD)的基礎(chǔ)上,鎖住SD的參數(shù),并且增加了一個(gè)可學(xué)習(xí)的分支,該分支的開頭和結(jié)尾都增加zero convolution(初始化參數(shù)為0),保證訓(xùn)練的穩(wěn)定性,并且Condition的特征會(huì)疊加回SD的Decoder特征上,進(jìn)而達(dá)到控制圖像生成的目的。
相比于SD模型,ControlNet有兩點(diǎn)區(qū)別:
ControlNet相比于SD,豐富了Condition的種類,總共9大類,包括Canny Edge、Canny Edge(Alter)、Hough Line、HED Boundary、User Sketching、Human Pose(Openpifpaf)、Human Pose(Openpose)、Semantic Segmentation(COCO)、Semantic Segmentation(ADE20K)、Depth(large-scale)、Depth(small-scale)、Normal Maps、Normal Maps(extended)和Cartoon Line Drawing。
ControlNet不需要重新訓(xùn)練SD模型,這極大的降低了可編輯圖像生成領(lǐng)域的門檻,減少二次開發(fā)的成本。
從上圖可以看到,ControlNet可以先提取出動(dòng)物的Canny edge,然后再在Canny edge的基礎(chǔ)上渲染出不同風(fēng)格環(huán)境色彩的動(dòng)物圖片,amazing!
上圖是一些ControlNet圖像生成的例子,更多的例子可以閱讀原文。
T2I-Adapter
T2I-Adapter跟ControlNet非常類似,主要不同有以下幾點(diǎn)區(qū)別:
T2I-Adapter可以同時(shí)組合輸入多種類型的Condition
T2I-Adapter是從SD的Encoder部分傳入Condition的
可以看到T2I-Adapter生成的圖像有著類似ControlNe的可編輯效果。
Composer
Composer跟ControlNet和T2I-Adapter的思路也是類似的,但是Composer提出了一個(gè)有意思的點(diǎn),就是可編輯圖像生成其實(shí)就是對(duì)圖像各種元素的組合,Composer先用各種不同的模型將各種不同的圖片分解成各種元素,然后將不同圖片的元素進(jìn)行重組。比如上圖的戴珍珠耳環(huán)的少女,可以分解成shape、semantics、sketch、masking、style、content、intensity、palette、文字等等元素,然后跟其他不同圖片的元素進(jìn)行想要的重組。
Composer將各種元素區(qū)分成兩類,一類是Global Conditions,另一類是Localized Conditions。其中Global Conditions包括sentence embeddings, image embeddings, and color histograms,并且需要添加到Timestep中;Localized Conditions包括segmentation maps, depthmaps, sketches, grayscale images, and masked images,并且需要添加到Noisy Image中。
上面圖像生成的結(jié)果,充分表現(xiàn)出了Composer模型可編輯的多樣性和豐富性。
圖像結(jié)構(gòu)化和圖像生成
我在這里將圖像檢測、圖像分割、深度估計(jì)等任務(wù)統(tǒng)稱為圖像結(jié)構(gòu)化。從某種意義上來說,圖像結(jié)構(gòu)化其實(shí)可以認(rèn)為是一種特殊的圖像生成,只不過生成的圖片是某個(gè)單一維度的特征,比如是深度圖、mask圖、關(guān)鍵點(diǎn)圖等等。ControlNet和Composer某種意義上就是將結(jié)構(gòu)化圖片通過文字控制來豐富細(xì)節(jié)進(jìn)而生成想要的圖片;而圖像結(jié)構(gòu)化其實(shí)就是把維度復(fù)雜、細(xì)節(jié)豐富的圖片生成維度單一、細(xì)節(jié)簡單的結(jié)構(gòu)化圖片。
圖像結(jié)構(gòu)化和圖像生成其實(shí)也就是對(duì)應(yīng)著Composer文章里面提到的分解和合成兩個(gè)過程。我對(duì)于可編輯圖像生成領(lǐng)域未來的想法是,盡可能準(zhǔn)確豐富的提取圖像中各個(gè)維度的結(jié)構(gòu)化信息(包括文字信息),然后通過Stable Diffusion模型組合融入想要的結(jié)構(gòu)化信息,進(jìn)而達(dá)到完全自主可控的圖像生成。
總結(jié)
可編輯的圖像生成其實(shí)蘊(yùn)含著人機(jī)交互的思想,人的意志通過輸入的文字提示和圖片提示傳遞給模型,而模型(或者說是機(jī)器)生成的圖片恰好反映出了人的思想。可編輯圖像生成會(huì)改變繪畫設(shè)計(jì)等領(lǐng)域的創(chuàng)作模式(比如公仔服裝周邊等等,可以無限壓縮設(shè)計(jì)繪畫的時(shí)間),進(jìn)而孕育出新的更有活力的創(chuàng)業(yè)公司,互聯(lián)網(wǎng)行業(yè)可能會(huì)迎來第二增長曲線。
審核編輯:劉清
-
Clip
+關(guān)注
關(guān)注
0文章
31瀏覽量
6726 -
GaN器件
+關(guān)注
關(guān)注
1文章
37瀏覽量
7938 -
OpenAI
+關(guān)注
關(guān)注
9文章
1171瀏覽量
6771 -
AIGC
+關(guān)注
關(guān)注
1文章
368瀏覽量
1627
原文標(biāo)題:AIGC—可編輯的圖像生成
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
基于擴(kuò)散模型的圖像生成過程
![基于擴(kuò)散模型的<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>過程](https://file1.elecfans.com/web2/M00/8C/E2/wKgaomS0rtWABJl7AAAWIxBb_zY535.png)
AIGC入門及鴻蒙入門
#新年新氣象,大家新年快樂!#AIGC入門及鴻蒙入門
RTthread移植代碼自動(dòng)生成方案
一種全新的遙感圖像描述生成方法
![一種全新的遙感<b class='flag-5'>圖像</b>描述<b class='flag-5'>生成方</b>法](https://file.elecfans.com/web1/M00/EB/E9/pIYBAGB-SXKAfAHjAAG5g0yKvUo806.png)
基于模板、檢索和深度學(xué)習(xí)的圖像描述生成方法
![基于模板、檢索和深度學(xué)習(xí)的<b class='flag-5'>圖像</b>描述<b class='flag-5'>生成方</b>法](https://file.elecfans.com/web1/M00/EC/87/pIYBAGCCZViAGU4wAACicgPs54I623.png)
GAN圖像對(duì)抗樣本生成方法研究綜述
![GAN<b class='flag-5'>圖像</b>對(duì)抗樣本<b class='flag-5'>生成方</b>法研究綜述](https://file.elecfans.com/web1/M00/ED/66/pIYBAGCJIB2Af8bkAAKSsmjxwFo065.png)
基于圖像驅(qū)動(dòng)的三維人臉自動(dòng)生成與編輯算法
AIGC最新綜述:從GAN到ChatGPT的AI生成歷史
伯克利AI實(shí)驗(yàn)室開源圖像編輯模型InstructPix2Pix,簡化生成圖像編輯并提供一致結(jié)果
![伯克利AI實(shí)驗(yàn)室開源<b class='flag-5'>圖像編輯</b>模型InstructPix2Pix,簡化<b class='flag-5'>生成</b><b class='flag-5'>圖像編輯</b>并提供一致結(jié)果](https://file1.elecfans.com/web2/M00/A1/95/wKgaomTsUO2ARmX-AAAO3_83eaw029.jpg)
評(píng)論