91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種基于new concepts的text-to-image生成模型的fine-tuning方法

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-01-03 17:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2. 引言

最近通過文本生成圖像的深度學習相關技術取得了非常大的進展,2021已經成為了圖像生成的一個新的milestone,諸如DALL-E和Stable diffusion這種模型都取得了長足的進步,甚至達到了“出圈”的效果。通過簡單文本prompts,用戶能夠生成前所未有的質量的圖像。這樣的模型可以生成各種各樣的對象、風格和場景,并把它們進行組合排序,這讓現有的圖像生成模型看上去是無所不能的。

b809bb20-88d1-11ed-bfe3-dac502259ad0.png

但是,盡管這些模型具有多樣性和一些泛化能力,用戶經常希望從他們自己的生活中合成特定的概念。例如,親人、朋友、寵物或個人物品和地點,這些都是非常有意義的concept,也和個人對于生成圖像的信息有對齊。由于這些概念天生就是個人的,因此在大規模的模型訓練過程中很難出現。

事后通過詳細的文字,來描述這種概念是非常不方便的,也無法保留足夠多的視覺細節來生成新的personal的concepts。這就需要模型具有一定的“定制”能力。也就是說如果給定少量用戶提供的圖像,我們能否用新概念(例如寵物狗或者“月亮門”,如圖所示)增強現有的文本到圖像擴散模型?經過微調的模型應該能夠將它們與現有概念進行概括并生成新的變化。這帶來了幾個比較嚴峻的挑戰:

首先,模型傾向于遺忘現有概念的含義:例如,在添加“moon gate”這一concept的時候,“moon”的含義就會丟失。

其次,由于stable diffusion這樣的網絡往往參數會超級多,所以在小數據上訓練模型,容易造成對訓練樣本進行過擬合,而且采樣中變化也有限。

此外,論文還關注了一個更具挑戰性的問題,即組group fine-tuning,即能夠超越單個個體concept的微調,并將多個概念組合在一起。學習多個新的concepts同時也是存在一定的挑戰的,比如 concept mixing以及concept omission。

在這項工作中,論文提出了一種fine-tuning技術,即文本到圖像擴散模型的“定制擴散”。我們的方法在計算和內存方面都很有效。為了克服上述挑戰,新方法固定一小部分模型權重,即文本到潛在特征的key值映射在cross-attention layer中。fine-tuning這些足以更新模型的新concepts。

為了防止模型喪失原來強大的表征能力,新方法僅僅使用一小組的圖像與目標圖像類似的真實圖像進行訓練。我們還在微調期間引入data的augamation,這可以讓模型更快的收斂,并獲得更好的結果。論文提出的方法實驗是構建在Stable Diffusion之上,并對各種數據集進行了實驗,其中最少有四幅訓練圖像。

對于添加單個concept,新提出的方法顯示出比相似任務的作品和基線更好的文本對齊和視覺相似性。更重要的是,我們的方法可以有效地組成多個新concepts,而直接對不同的concepts進行組合的方法則遇到困難,經常會省略一個。最后,我們的方法只需要存儲一小部分參數(模型權重的3%),消耗的GPU memory非常有限,同時也減少了fine-tuning的時間。

3. 方法

總結來講,論文提出的方法,就是僅更新權重的一小部分,即模型的交叉注意力層。此外,由于目標概念的訓練樣本很少,所以使用一個真實圖像的正則化集,以防止過擬合。

b818b53a-88d1-11ed-bfe3-dac502259ad0.png

對于Single-Concept Fine-tuning,給定一個預訓練的text-to-image diffusion model,我們的目標是在模型中加入一個新的concept,只要給定四張圖像和相應的文本描述進行訓練。fine-tuning后的模型應保留其先驗知識,允許根據文本提示使用新概念生成新的圖像類型。

這可能具有挑戰性,因為更新的文本到圖像的映射可能很容易過擬合少數可用圖像。所以保證泛化性就非常有必要,也比較有挑戰。所以就僅僅fine-tuning新的K和V,而對于query,則保持不變,這樣就可以增加新概念的同時,保證模型的表征能力不受到太多的影響。優化目標還是diffusion的形式:

b822694a-88d1-11ed-bfe3-dac502259ad0.png

概括起來實際上非常簡單,就是訓練一個k和v的矩陣,來擴充維度,增加模型的表征能力,使其能生成更為豐富的圖像內容。

b82ab6d6-88d1-11ed-bfe3-dac502259ad0.png

而對于Multiple-Concept Compositional Fine-tuning,為了對多個概念進行微調,我們將每個概念的訓練數據集合并,并使用我們的方法將它們聯合訓練。為了表示目標概念,我們使用不同的修飾符的,并將它們與每個層的交叉注意關鍵和值矩陣一起初始化,并優化它們。通過將權重更新限制為交叉注意key和value參數,與DreamBooth等方法相比,可以顯著更好地將兩個概念合并在一起。

poYBAGOz8RaAaMMYAAFDj5Ag_TQ303.jpg

b8327024-88d1-11ed-bfe3-dac502259ad0.png

可以發現,增加約束還是讓模型具有更強的表征能力的。最下面一行才和真正的門比較相似,同時生成的月亮也非常合理。

4. 實驗

b844a622-88d1-11ed-bfe3-dac502259ad0.png

給定一個新concepts的圖像如左側顯示的目標圖像,提出的方法可以在看不見的上下文和藝術風格中生成帶有該概念的圖像。

第一行:代表水彩畫藝術風格中的概念。方法還可以在背景中生成山脈,而 DreamBooth 和 Textual Inversion 忽略了這一點。

第二行:改變背景場景。我們的方法和 DreamBooth 的表現與 Textual Inversion 相似且更好。

第三行:添加另一個對象,例如帶有目標桌子的橙色沙發。新的方法成功地添加了另一個對象。第四行:改變對象屬性,如花瓣的顏色。第五行:用太陽鏡裝飾私人寵物貓。我們的方法比基線更好地保留了視覺相似性,同時僅更改花瓣顏色或為貓添加太陽鏡。

b86279e0-88d1-11ed-bfe3-dac502259ad0.png

可以發現Multiple-Concept Compositional Fine-tuning的效果也非常驚艷。

b87509c0-88d1-11ed-bfe3-dac502259ad0.png

風格遷移的效果也不錯。

定量指標也有比較有競爭力的表現:

b8809b96-88d1-11ed-bfe3-dac502259ad0.png

5. 結論

論文提出了一種基于new concepts的text-to-image生成模型的fine-tuning方法。只需使用一些有限的圖像示例, 新方法就能一高效的方法生成微調概念的新樣本同時保留原有的生成能力。而且,我們只需要保存一小部分模型權重。此外,方法可以連貫地在同一場景中組合多個新概念,這是之前的方法所缺少的能力。







審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4949

    瀏覽量

    131307

原文標題:如何簡單高效地定制自己的文本作畫模型?

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Hyperabrupt Junction Tuning 變容二極管 skyworksinc

    電子發燒友網為你提供()Hyperabrupt Junction Tuning 變容二極管相關產品參數、數據手冊,更有Hyperabrupt Junction Tuning 變容二極管的引腳圖
    發表于 07-10 18:32
    Hyperabrupt Junction <b class='flag-5'>Tuning</b> 變容二極管 skyworksinc

    Hyperabrupt Junction Tuning Varactor skyworksinc

    電子發燒友網為你提供()Hyperabrupt Junction Tuning Varactor相關產品參數、數據手冊,更有Hyperabrupt Junction Tuning Varactor
    發表于 07-09 18:34
    Hyperabrupt Junction <b class='flag-5'>Tuning</b> Varactor skyworksinc

    一種基于擴散模型的視頻生成框架RoboTransfer

    在機器人操作領域,模仿學習是推動具身智能發展的關鍵路徑,但高度依賴大規模、高質量的真實演示數據,面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數據生成方案,但顯著的“模擬到現實”(Sim2Real)鴻溝,制約了仿真數據訓練策略的泛化能力與落地應用。
    的頭像 發表于 07-09 14:02 ?208次閱讀
    <b class='flag-5'>一種</b>基于擴散<b class='flag-5'>模型</b>的視頻<b class='flag-5'>生成</b>框架RoboTransfer

    一種多模態駕駛場景生成框架UMGen介紹

    端到端自動駕駛技術的快速發展對閉環仿真器提出了迫切需求,而生成模型為其提供了一種有效的技術架構。然而,現有的駕駛場景生成方法大多側重于圖像模態,忽略了其他關鍵模態的建模,如地圖信息、
    的頭像 發表于 03-24 15:57 ?904次閱讀
    <b class='flag-5'>一種</b>多模態駕駛場景<b class='flag-5'>生成</b>框架UMGen介紹

    OpenVINO?工具套件使用CRNN_CS模型運行OpenCV* text_detection.cpp報錯怎么解決?

    將 crnn_cs.onnx 文本識別模型轉換為中間表示 (IR): python mo.py --input_model crnn_cs.onnx 使用生成的 IR 文件運行 OpenCV
    發表于 03-05 09:19

    一種基于正交與縮放變換的大模型量化方法

    近年來,大規模語言模型(Large Language Models, LLMs)在自然語言處理領域取得了革命性進展。以 GPT 系列、LLaMA 等為代表的模型,通過千億級參數的復雜結構展現出強大的語義理解和生成能力。
    的頭像 發表于 03-04 11:10 ?489次閱讀
    <b class='flag-5'>一種</b>基于正交與縮放變換的大<b class='flag-5'>模型</b>量化<b class='flag-5'>方法</b>

    文詳解視覺語言模型

    視覺語言模型(VLM)是一種多模態、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發表于 02-12 11:13 ?1772次閱讀
    <b class='flag-5'>一</b>文詳解視覺語言<b class='flag-5'>模型</b>

    【「基于大模型的RAG應用開發與優化」閱讀體驗】+大模型微調技術解讀

    ,減少了計算成本。LoRA(Low-Rank Adaptation):一種基于低秩分解的微調方法,通過分解模型參數矩陣為低秩矩陣來減少參數更新的數量,提高訓練效率。PET(Prompt-based
    發表于 01-14 16:51

    AN-715::走近IBIS模型:什么是IBIS模型?它們是如何生成的?

    電子發燒友網站提供《AN-715::走近IBIS模型:什么是IBIS模型?它們是如何生成的?.pdf》資料免費下載
    發表于 01-13 14:21 ?0次下載
    AN-715::走近IBIS<b class='flag-5'>模型</b>:什么是IBIS<b class='flag-5'>模型</b>?它們是如何<b class='flag-5'>生成</b>的?

    大語言模型優化生成管理方法

    大語言模型的優化生成管理是個系統工程,涉及模型架構、數據處理、內容控制、實時響應以及倫理監管等多個層面。以下,是對大語言模型優化
    的頭像 發表于 12-02 10:45 ?408次閱讀

    PWM信號生成方法 PWM調制原理講解

    PWM(脈沖寬度調制,Pulse Width Modulation)是一種重要的模擬信號電平數字編碼方法,在電子技術和控制領域具有廣泛應用。以下是對PWM信號生成方法和PWM調制原理的介紹: PWM
    的頭像 發表于 11-28 16:34 ?4850次閱讀

    LLM和傳統機器學習的區別

    和訓練方法 LLM: 預訓練和微調: LLM通常采用預訓練(Pre-training)和微調(Fine-tuning)的方法。預訓練階段,模型在大規模的文本數據上學習語言的通用特征,微
    的頭像 發表于 11-08 09:25 ?1908次閱讀

    一種創新的動態軌跡預測方法

    本文提出了一種動態軌跡預測方法,通過結合歷史幀和歷史預測結果來提高預測的穩定性和準確性。它引入了歷史預測注意力模塊,以編碼連續預測之間的動態關系,并通過三重因子注意力模塊實現了最先進的性能。本方法能夠
    的頭像 發表于 10-28 14:34 ?1106次閱讀
    <b class='flag-5'>一種</b>創新的動態軌跡預測<b class='flag-5'>方法</b>

    一種簡單高效配置FPGA的方法

    本文描述了一種簡單高效配置FPGA的方法,該方法利用微處理器從串行外圍接口(SPI)閃存配置FPGA設備。這種方法減少了硬件組件、板空間和成本。
    的頭像 發表于 10-24 14:57 ?1631次閱讀
    <b class='flag-5'>一種</b>簡單高效配置FPGA的<b class='flag-5'>方法</b>

    圖片動畫控件和Video image控件的使用方法

    在UI開發過程中,序列幀基本是繞不開的,AWTK 支持多種方法實現序列幀顯示,本文介紹圖片動畫控件和Video image控件的使用方法
    的頭像 發表于 08-06 16:44 ?1673次閱讀
    圖片動畫控件和Video <b class='flag-5'>image</b>控件的使用<b class='flag-5'>方法</b>
    主站蜘蛛池模板: 狠狠天天| 国产大片91精品免费观看不卡 | 天天天综合网 | 欧美午夜色大片在线观看免费 | 日韩基地1024首页 | 久草资源站在线 | xxx亚洲日本 | 天天爽天天干 | 国产日韩精品一区二区三区 | 中文字幕在线播放不卡 | 国产综合在线视频 | 超黄视频网站 | 韩国免费人成在线观看网站 | 日本一区二区不卡在线 | 天天爱夜夜操 | 最新版天堂资源8网 | 天堂一区二区三区在线观看 | 天天爱天天做天天干 | 激情六月丁香 | 国产精品亚洲精品日韩动图 | 国内一级特黄女人精品片 | 日本五十交尾在线观看 | 狠狠色噜噜狠狠狠狠888奇米 | 韩国一级网站 | 欧美在线高清视频 | 精品国产成人系列 | 很黄很污小说 | 91色视频网站 | 亚洲欧美日韩在线观看你懂的 | 四虎永久在线日韩精品观看 | 久久久久久久国产免费看 | 四虎地址8848最新章节 | 国产精品久久久久久免费播放 | 亚洲黄色网址大全 | 欧美成人h精品网站 | 美人岛福利 | jlzzjlzzjlzz日本亚洲 | 免费人成黄页在线观看日本 | 日本一区二区三区四区在线观看 | 熊出没之环球大冒险旧版免费观看 | 午夜剧场官网 |