在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

微軟提出Control-GPT:用GPT-4實現可控文本到圖像生成!

CVer ? 來源:機器之心 ? 2023-06-05 15:31 ? 次閱讀

擴散模型雖好,但如何保證生成的圖像準確高質量?GPT-4或許能幫上忙。

文本到圖像生成領域近兩年取得了很大的突破,從 GAN 到 Stable Diffusion,圖像生成的速度越來越快,生成效果越來越好。然而,AI 模型生成的圖像在細節上還有很多瑕疵,并且使用自然語言指定對象的確切位置、大小或形狀存在一定的困難。為了生成精準、高質量的圖像,現有方法通常依賴于廣泛的提 prompt 工程或手動創建圖像草圖。這些方法需要大量的人工工作,因此非常低效。

最近,來自加州大學伯克利分校(UC 伯克利)和微軟研究院的研究者從編程的角度思考了這個問題。當前,用戶能夠使用大型語言模型較好地控制代碼生成,這讓該研究看到了編寫程序來控制生成圖像細節的可能,包括物體的形狀、大小、位置等等?;诖?,該研究提出利用大型語言模型(LLM)生成代碼的功能實現可控型文本到圖像生成。

ec7cbdc6-0356-11ee-90ce-dac502259ad0.png

Controllable Text-to-Image Generation with GPT-4

論文地址:https://arxiv.org/abs/2305.18583

該研究提出了一個簡單而有效的框架 Control-GPT,它利用 LLM 的強大功能根據文本 prompt 生成草圖。Control-GPT 的工作原理是首先使用 GPT-4 生成 TikZ 代碼形式的草圖。如下圖 1 (c) 所示,程序草圖(programmatic sketch)是按照準確的文本說明繪制的,隨后這些草圖被輸入 Control-GPT。Control-GPT 是 Stable Diffusion 的一種變體,它能接受額外的輸入,例如參考圖像、分割圖等等。這些草圖會充當擴散模型的參考點,使擴散模型能夠更好地理解空間關系和特殊概念,而不是僅僅依賴于文本 prompt。這種方法使得 prompt 工程和草圖創建過程不再需要人為干預,并提高了擴散模型的可控性。

ec872fc2-0356-11ee-90ce-dac502259ad0.png

我們來看一下 Control-GPT 方法的具體細節。

方法

對圖像生成來說,訓練過程的一個較大挑戰是缺乏包含對齊文本和圖像的數據集。為了解決這個難題,該研究將現有實例分割數據集(例如 COCO 和 LVIS)中的實例掩碼轉換為多邊形的表示形式,這與 GPT-4 生成的草圖類似。

然后,該研究構建了一個包含圖像、文本描述和多邊形草圖的三元數據集,并微調了 ControlNet。該研究發現這種方法有助于更好地理解 GPT 生成的草圖,并且可以幫助模型更好地遵循文本 prompt 指令。

ControlNet 是擴散模型的一種變體,它需要額外的輸入條件。該研究使用 ControlNet 作為基礎圖像生成模型,并通過編程草圖和 grounding token 的路徑對其進行擴展。

框架

如下圖 2 所示,在 Control-GPT 中,首先 GPT-4 會根據文本描述生成 TikZ 代碼形式的草圖,并輸出圖像中物體的位置。然后該研究用 LATEX 編譯 TikZ 代碼,將草圖轉換為圖像格式,再將編程草圖、文本描述和物體位置的 grounding token 提供給經過調優的 ControlNet 模型,最終生成符合條件的圖像。

ec93dcb8-0356-11ee-90ce-dac502259ad0.png

使用 GPT-4 生成的草圖訓練 ControlNet 是必要的,因為預訓練的 ControlNet 不理解生成的草圖,不能將其轉換為現實圖像。為了 prompt GPT-4,該研究要求用戶遵循如下的 prompt 樣本,以讓 GPT-4 請求 TikZ 代碼片段的結構化輸出,以及相關物體的名稱和位置。然后,該研究使用 GPT-4 的輸出來編譯草圖圖像并獲得 grounding token。

ecdf4464-0356-11ee-90ce-dac502259ad0.png

LLM 繪制草圖的準確性如何

Control-GPT 的精度取決于 LLM 生成草圖時的準確性和可控性。因此,該研究對 LLM 在草圖生成方面的性能進行了基準測試。實驗結果表明 GPT 系列模型在草圖生成方面明顯優于 LLaMa 等開源模型,并且 GPT-4 在遵循文本指令方面表現出驚人的高準確性(約 97%)。

該研究對 Control-GPT 和一些經典模型的生成結果進行了人工評估,結果表明當圖像中包含兩個不相關的罕見物體組合時,一些模型的生成效果比較差,而 Control-GPT 的生成結果相對較好,如下表 2 所示:

ecf6ea56-0356-11ee-90ce-dac502259ad0.png

查詢 LLMs,生成一個 TikZ 代碼片段來描述給定的文本,進而檢查 LLMs 的性能。如下表 1 所示,GPT-series 模型的大多數代碼片段都可以編譯為有效的草圖,而 LLaMA 和 Alpaca 的輸出要么是空的,要么不可運行。在 GPT-series 模型中,最新的 GPT-4 在 95 個查詢中只有 3 次失敗,這些查詢成功地生成了有效草圖,在遵循文本指令方面的成功率大約有 97%。ChatGPT 是 GPT-3.5 的 RLHF 微調版本,其性能明顯低于原始 GPT-3.5。在調優過程中,聊天能力和代碼生成之間可能存在著權衡。

ed024fd6-0356-11ee-90ce-dac502259ad0.png

在下圖 4 中,研究者提供了一個來自 GPT 系列模型的可視化草圖例子。雖然生成的草圖不如照片那樣逼真,但它們往往能捕捉到語義,并正確推理出物體的空間關系。生成的草圖經常出人意料地通過簡單的代碼片斷來正確處理物體形狀。

下圖最后一行展示了 GPT-4 的一個失敗案例,即模型無法生成物體形狀,而 GPT-3.5 卻能給出一個正確的草圖。GPT-4 在草圖生成方面的高精度帶來的啟發是:可以使用它來提高圖像生成模型的可控性。

ed147de6-0356-11ee-90ce-dac502259ad0.png

實驗

基于 Visor 數據集,研究者對 Control-GPT 進行了一系列實驗設置的評估,測試其在空間關系、物體位置和大小方面的可控性。他們還將評估擴展到多個物體和分布外的 prompt。廣泛的實驗表明,Control-GPT 可以大大提升擴散模型的可控性。

下表 3 中列出了定量評估結果??梢钥吹?,Control-GPT 模型可以在給定的一些規格下更好地控制物體的大小和位置。與幾乎無法控制物體位置和尺寸的 Stable Diffusion 模型(SD-v1.5)相比,Control-GPT 將總體精度從 0% 提高到 14.18%。與現成的 ControlNet 相比,Control-GPT 在所有指標上也取得了更好的表現,獲得了從 8.46% 到 4.18% 的整體改善。這些結果展示了本文的 LLM 集成框架在更細化和精確控制圖像生成過程方面的潛力。

ed1d08f8-0356-11ee-90ce-dac502259ad0.png

視覺化。下圖 6 展示了定性評估結果,可以看到,ControlGPT 可以按照物體位置和尺寸的規范繪制物體。相比之下,ControlNet 也能遵循,但卻很難生成正確的物體,而 Stable Diffusion 則無法遵循規范。

ed2b57c8-0356-11ee-90ce-dac502259ad0.png

對空間關系的消融實驗。研究者還探討了模型是否對不同類型的空間關系(如左 / 右 / 上 / 下)有偏好,作為空間關系基準分析的一部分。從下表 4 中可以看出,Control-GPT 在 Visor Score 和物體準確性方面一直比所有的基線模型工作得更好。

ed995d04-0356-11ee-90ce-dac502259ad0.png

多個物體之間的關系。研究者對 Control-GPT 生成多個物體的能力進行了進一步的評估,這些物體的空間關系由 prompt 指定。下圖 7 展示了一些例子,Control-GPT 能理解不同物體之間的空間關系,并在 GPT-4 的幫助下將它們放入布局中,表現出了更好的性能。

edbbb304-0356-11ee-90ce-dac502259ad0.png

可控性與圖像逼真度。通常,在生成逼真圖像與遵循精確布局之間往往存在著妥協,特別是對于分布外的文字 prompt。如下圖 8 所示,(a)是一個例子,生成的圖像完全遵循布局,但這導致了圖像中的一些偽影;而在(b)中,照片往往看起來很逼真,但沒有很好地遵循草圖。

edcf60fc-0356-11ee-90ce-dac502259ad0.png

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1091

    瀏覽量

    40851
  • 數據集
    +關注

    關注

    4

    文章

    1218

    瀏覽量

    25158
  • GPT
    GPT
    +關注

    關注

    0

    文章

    367

    瀏覽量

    15834

原文標題:微軟提出Control-GPT:用GPT-4實現可控文本到圖像生成!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    ChatGPT升級 OpenAI史上最強大模型GPT-4發布

    是 Generative Pre-trained Transformer 4 的縮寫,即生成型預訓練變換模型 4,是一個多模態大型語言模型。根據OpenAI的描述,GPT-4 支持接
    的頭像 發表于 03-15 18:15 ?3002次閱讀

    OpenAI正式發布GPT-4:支持圖像文本的輸入、 處理中文的準確度大幅提升

    ChatGPT 的經驗教訓迭代調整 GPT-4,從而在真實性和可控性等方面取得了有史以來最好的結果(盡管遠非完美)。
    的頭像 發表于 03-16 09:46 ?2012次閱讀

    GPT-4多模態模型發布,對ChatGPT的升級和斷崖式領先

    而且 GPT-4 是多模態的,同時支持文本圖像輸入功能。此外,GPT-4 比以前的版本“更大”,這意味著其已經在更多的數據上進行了訓練,并且在模型文件中有更多的權重,這也使得它的運行
    的頭像 發表于 03-17 10:31 ?3590次閱讀

    語言模型GPT-4在北京高考題目上的測試結果

    計算符號的表示。針對數學和物理中的公式,我們發現不管用文本類輸入(如,t_0)還是latex輸入(如, )都不影響GPT-4的理解。為了統一,我們都盡可能采用latex表達問題,因此所有考試題目都由作者手敲公式輸入,不可避免
    的頭像 發表于 03-22 14:13 ?1527次閱讀

    關于GPT-4的產品化狂想

    GPT-4是條件,而不是結果
    的頭像 發表于 03-26 10:48 ?3171次閱讀
    關于<b class='flag-5'>GPT-4</b>的產品化狂想

    GPT-4是這樣搞電機的

    GPT-4寫電機基礎程序沒問題
    的頭像 發表于 04-17 09:41 ?1183次閱讀
    <b class='flag-5'>GPT-4</b>是這樣搞電機的

    微軟GPT-4搜索引擎重大升級 新Bing開放AI能力

    GPT-4,GPT-4有更強悍的能力可以提供創意性文章創作和圖像識別功能。微軟馬上跟進,宣布旗下的Bing Chat已經升級使用了OpenAI提供的
    的頭像 發表于 05-05 17:15 ?2841次閱讀

    GPT-4 Copilot X震撼來襲!AI寫代碼效率10倍提升,碼農遭降維打擊

    來源:新智元【導讀】GPT-4加強版Copilot來了!剛剛,GitHub發布了新一代代碼生成工具GitHubCopilotX,動嘴寫代碼不再是夢。微軟真的殺瘋了!上周,微軟
    的頭像 發表于 04-04 16:35 ?1040次閱讀
    <b class='flag-5'>GPT-4</b> Copilot X震撼來襲!AI寫代碼效率10倍提升,碼農遭降維打擊

    GPT-4已經會自己設計芯片了嗎?

    對話,紐約大學Tandon工程學院的研究人員就通過GPT-4造出了一個芯片。 具體來說,GPT-4通過來回對話,就生成了可行的Verilog。隨后將基準測試和處理器發送到Skywater 130 nm
    的頭像 發表于 06-20 11:51 ?1139次閱讀
    <b class='flag-5'>GPT-4</b>已經會自己設計芯片了嗎?

    GPT-3.5 vs GPT-4:ChatGPT Plus 值得訂閱費嗎 國內怎么付費?

    GPT-3.5 vs GPT-4:ChatGPT Plus值得訂閱費嗎?ChatGPT Plus國內如何付費?? ChatGPT-3.5一切都很好,但ChatGPT-4(通過ChatGPT Plus
    的頭像 發表于 08-02 12:09 ?4525次閱讀
    <b class='flag-5'>GPT</b>-3.5 vs <b class='flag-5'>GPT-4</b>:ChatGPT Plus 值得訂閱費嗎 國內怎么付費?

    GPT-4沒有推理能力嗎?

    今年三月,OpenAI 重磅發布了 GPT-4 大模型,帶來了比 ChatGPT 背后 GPT-3.5 更強的推理、計算、邏輯能力,也引發了全民使用的熱潮。在各行各領域研究人員、開發者、設計師的使用過程中,「GPT-4 是最為領
    的頭像 發表于 08-11 14:20 ?1062次閱讀
    <b class='flag-5'>GPT-4</b>沒有推理能力嗎?

    微軟Copilot(Bing Chat)將升級至GPT-4 Turbo

    微軟Copilot(Bing Chat)將升級至GPT-4 Turbo 微軟廣告和網絡服務負責人Mikhail Parakhin在X平臺透露,Copilot(Bing Chat)目前還在解決一些問題
    的頭像 發表于 11-28 18:37 ?1268次閱讀

    OpenAI發布的GPT-4 Turbo版本ChatGPT plus有什么功能?

    GPT-4的最新版本。OpenAI憑借承諾增強功能和成本效率的模型實現了巨大飛躍,為人工智能行業樹立了新標準。 我們來看看OpenAI帶來了什么: 文本圖像理解
    的頭像 發表于 12-05 17:57 ?2936次閱讀
    OpenAI發布的<b class='flag-5'>GPT-4</b> Turbo版本ChatGPT plus有什么功能?

    微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

    起初,Copilot作為Bing Chat AI助手推出,初期采用GPT-3.5模型,隨后升級至GPT-4取得顯著進步,如今再次更新至性能卓越的GPT-4 Turbo模型,這無疑將使得Copilot功能再上新臺階。
    的頭像 發表于 03-13 13:42 ?903次閱讀

    阿里云發布通義千問2.5大模型,多項能力超越GPT-4

    阿里云隆重推出了通義千問 2.5 版,宣稱其“技術進步,全面超越GPT-4”,尤其是在中文環境中的多種任務(如文本理解、文本生成、知識問答及生活建議、臨時聊天及對話以及安全風險評估)方面表現出色,超越了
    的頭像 發表于 05-09 14:17 ?1224次閱讀
    主站蜘蛛池模板: 久久综合九色综合精品 | 日本骚视频 | 69国产视频 | 娇妻被黑人蹂躏 | 东北老女人啪啪对白 | 欧美性色欧美a在线播放 | 狠狠色噜噜狠狠狠狠888奇米 | 狠狠色综合久久婷婷 | 老湿成人影院 | 色吧五月婷婷 | 欧美成人高清性色生活 | 成人国产在线视频 | 51影院在线观看成人免费 | 日本亚洲天堂网 | 欲色影院 | 色多多高清在线观看视频www | 一级看片 | 亚洲国产一区二区三区a毛片 | 国产三级观看 | 亚洲日本欧美日韩高观看 | 中文字幕在线播放第一页 | 久久羞羞视频 | 四虎精品永久在线 | 天天艹天天操 | 蕾丝视频成人★在线观看 | 国产午夜在线观看视频 | 亚洲性影院 | www.丁香.com| 在线观看免费视频一区 | 中文字幕精品一区二区2021年 | 在线视频播放大全 | 国产一区二区在线不卡 | 久久久久国产一级毛片高清片 | 男人的天堂一区二区视频在线观看 | 美女扒开腿让男人桶尿口 | 亚洲丁香网 | 一本大道香蕉大vr在线吗视频 | 日本三级香港三级人妇网站 | 久久综合免费视频 | 偷偷久久| 亚洲午夜久久 |