在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

Tune-A-Video論文解讀

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-03-29 10:28 ? 次閱讀

Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

1. 論文信息

標題:Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

作者:Jay Zhangjie Wu, Yixiao Ge, Xintao Wang, Weixian Lei, Yuchao Gu, Yufei Shi, Wynne Hsu, Ying Shan, Xiaohu Qie, Mike Zheng Shou

原文鏈接:https://arxiv.org/pdf/2212.11565.pdf

代碼鏈接:https://tuneavideo.github.io/

2. 引言

坤坤鎮(zhèn)樓:

5af6f6ea-cdd8-11ed-bfe3-dac502259ad0.gif

在這里插入圖片描述

5b1b52d8-cdd8-11ed-bfe3-dac502259ad0.gif

在這里插入圖片描述

5b37cfd0-cdd8-11ed-bfe3-dac502259ad0.gif

在這里插入圖片描述

5b5902cc-cdd8-11ed-bfe3-dac502259ad0.gif

在這里插入圖片描述

大規(guī)模的多模態(tài)數(shù)據(jù)集是由數(shù)十億個文本圖像對組成,得益于高質量的數(shù)據(jù),在文本到圖像 (text-to-image, T2I) 生成方面取得了突破 。為了在文本到視頻 (T2V) 生成中復制這一成功,最近的工作已將純空間 T2I 生成模型擴展到時空域。這些模型通常采用在大規(guī)模文本視頻數(shù)據(jù)集(例如 WebVid-10M)上進行訓練的標準范式。盡管這種范式為 T2V 生成帶來了可喜的結果,但它需要對大型硬件加速器進行大規(guī)模數(shù)據(jù)集上的訓練,這一過程既昂貴又耗時。人類擁有利用現(xiàn)有知識和提供給他們的信息創(chuàng)造新概念、想法或事物的能力。例如,當呈現(xiàn)一段文字描述為“一個人在雪地上滑雪”的視頻時,我們可以利用我們對熊貓長相的了解來想象熊貓在雪地上滑雪的樣子。由于使用大規(guī)模圖像文本數(shù)據(jù)進行預訓練的 T2I 模型已經(jīng)捕獲了開放域概念的知識,因此出現(xiàn)了一個直觀的問題:它們能否從單個視頻示例中推斷出其他新穎的視頻,例如人類?因此引入了一種新的 T2V 生成設置,即 One-Shot Video Tuning,其中僅使用單個文本-視頻對來訓練 T2V 生成器。生成器有望從輸入視頻中捕獲基本的運動信息,并合成帶有編輯提示的新穎視頻。

5b91588e-cdd8-11ed-bfe3-dac502259ad0.png

本文提出了一種新的文本到視頻(T2V)生成設置——單次視頻調諧,其中只呈現(xiàn)一個文本-視頻對。該模型基于大規(guī)模圖像數(shù)據(jù)預訓練的最先進的文本到圖像(T2I)擴散模型構建。研究人員做出了兩個關鍵觀察:1)T2I模型可以生成代表動詞術語的靜止圖像;2)將T2I模型擴展為同時生成多個圖像表現(xiàn)出驚人的內(nèi)容一致性。為了進一步學習連續(xù)運動,研究人員引入了Tune-A-Video,它包括一個定制的時空注意機制和一個高效的單次調諧策略。在推理時,研究人員采用DDIM反演為采樣提供結構指導。大量定性和定量實驗表明,我們的方法在各種應用中都具有顯著的能力。

5ba309f8-cdd8-11ed-bfe3-dac502259ad0.png

論文提出的one-shot tuning的setting如上。本文的貢獻如下:1. 該論文提出了一種從文本生成視頻的新方法,稱為One-Shot Video Tuning。2. 提出的框架Tune-A-Video建立在經(jīng)過海量圖像數(shù)據(jù)預訓練的最先進的文本到圖像(T2I)擴散模型之上。3. 本文介紹了一種稀疏的時空注意力機制和生成時間連貫視頻的有效調優(yōu)策略。4. 實驗表明,所提出的方法在廣泛的應用中取得了顯著成果。

3. 方法

5bb9d638-cdd8-11ed-bfe3-dac502259ad0.png

該論文提出了一種從文本生成視頻的新方法,稱為One-Shot Video Tuning。擬議的框架Tune-A-Video建立在經(jīng)過海量圖像數(shù)據(jù)預訓練的最先進的文本到圖像(T2I)擴散模型之上。該論文還提出了一種有效的調優(yōu)策略和結構反演,以生成時間一致的視頻。實驗表明,所提出的方法在廣泛的應用中取得了顯著成果。

3.1 DDPMs的回顧

DDPMs(去噪擴散概率模型)是一種深度生成模型,最近因其令人印象深刻的性能而受關注。DDPMs通過迭代去噪過程,從標準高斯分布的樣本生成經(jīng)驗分布的樣本。借助于對生成結果的漸進細化,它們在許多圖像生成基準上都取得了最先進的樣本質量。

根據(jù)貝葉斯定律 and 可以表達為:

DDPMs的主要思想是:給定一組圖像數(shù)據(jù),我們逐步添加一點噪聲。每一步,圖像變得越來越不清晰,直到只剩下噪聲。這被稱為“正向過程”。然后,我們學習一個機器學習模型,可以撤消每一個這樣的步驟,我們稱之為“反向過程”。如果我們能夠成功地學習一個反向過程,我們就有了一個可以從純隨機噪聲生成圖像的模型。

這其中又有LDMs這種范式的模型比較流行,Latent Diffusion Models(LDMs)是一種基于DDPMs的圖像生成方法,它通過在latent space中迭代“去噪”數(shù)據(jù)來生成圖像,然后將表示結果解碼為完整的圖像。LDMs通過將圖像形成過程分解為去噪自編碼器的順序應用,實現(xiàn)了在圖像數(shù)據(jù)和其他領域的最先進的合成結果。此外,它們的公式允許引入一個引導機制來控制圖像生成過程,而無需重新訓練。然而,由于這些模型通常直接在像素空間中運行,因此優(yōu)化強大的DMs通常需要數(shù)百個GPU天,并且推理由于順序評估而昂貴。為了在有限的計算資源上啟用DM訓練,同時保留它們的質量和靈活性,我們在強大的預訓練自編碼器的潛在空間中應用它們。與以前的工作不同,訓練擴散模型時使用這樣一個表示允許首次在復雜度降低和細節(jié)保留之間達到近乎最優(yōu)的平衡點,極大地提高了視覺保真度。

3.2 Network Inflation

T2I 擴散模型(例如,LDM)通常采用 U-Net ,這是一種基于空間下采樣通道然后是帶有跳躍連接的上采樣通道的神經(jīng)網(wǎng)絡架構。它由堆疊的二維卷積殘差塊和Transformer塊組成。每個Transformer塊包括空間自注意層、交叉注意層和前饋網(wǎng)絡 (FFN)。空間自注意力利用特征圖中的像素位置來實現(xiàn)相似的相關性,而交叉注意力則考慮像素與條件輸入(例如文本)之間的對應關系。形式上,給定視頻幀 vi 的latent表征 ,很自然的可以想到要用self-attention機制來完成:

然后論文借助卷積來強化temporal coherence,并采用spatial self-attention來加強注意力機制,來捕捉不同視頻幀的變化。

5bc913dc-cdd8-11ed-bfe3-dac502259ad0.png

為了減少計算復雜度,Q采用相同的而K和V都是通過共享的矩陣來獲取:

這樣計算復雜度就降低到了,相對比較可以接受。

3.3 Fine-Tuning and Inference

Fine-Tuning是使預訓練的模型適應新任務或數(shù)據(jù)集的過程。在提出的方法Tune-A-Video中,文本到圖像(T2I)擴散模型是在海量圖像數(shù)據(jù)上預先訓練的。然后,在少量的文本視頻對上對模型進行微調,以從文本生成視頻。Fine-Tuning過程包括使用反向傳播使用新數(shù)據(jù)更新預訓練模型的權重。推理是使用經(jīng)過訓練的模型對新數(shù)據(jù)進行預測的過程。在提出的方法中,使用經(jīng)過Fine-Tuning的T2I模型進行推斷,從文本生成視頻。

Inference過程包括向模型輸入文本,模型生成一系列靜止圖像。然后將靜止圖像組合成視頻。本發(fā)明提出的方法利用高效的注意力調整和結構反演來提高所生成視頻的時間一致性。

4. 實驗

5be5dc88-cdd8-11ed-bfe3-dac502259ad0.png

作者為了證明方法的有效性,進行了廣泛的實驗,以評估所提出的方法在各種應用中的性能。這些實驗是在多個數(shù)據(jù)集上進行的,包括Kinetics-600數(shù)據(jù)集、Something-Something-Something數(shù)據(jù)集和YouCook2數(shù)據(jù)集。實驗中使用的評估指標包括弗雷切特入口距離(FID)、盜夢分數(shù)(IS)和結構相似度指數(shù)(SSIM)。實驗結果證明了所提出的文本驅動視頻生成和編輯方法的有效性。

看一下可視化的效果:

5bf6a374-cdd8-11ed-bfe3-dac502259ad0.png

5c1d8962-cdd8-11ed-bfe3-dac502259ad0.png

5. 討論

該論文在處理輸入視頻中的多個物體和物體交互方面存在局限性。這是由于擬議框架中使用的文本到圖像(T2I)模型的固有局限性。該論文建議使用其他條件信息,例如深度,使模型能夠區(qū)分不同的物體及其相互作用。但是,這種研究途徑留待將來使用。

6. 結論

該論文介紹了一項名為 One-Shot Video Tuning 的從文本生成視頻的新任務。該任務涉及僅使用一對文本視頻和預先訓練的模型來訓練視頻生成器。擬議的框架Tune-A-Video對于文本驅動的視頻生成和編輯既簡單又有效。該論文還提出了一種有效的調優(yōu)策略和結構反演,以生成時間一致的視頻。實驗表明,所提出的方法在廣泛的應用中取得了顯著成果。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像數(shù)據(jù)

    關注

    0

    文章

    54

    瀏覽量

    11429
  • 模型
    +關注

    關注

    1

    文章

    3461

    瀏覽量

    49773
  • 生成器
    +關注

    關注

    7

    文章

    322

    瀏覽量

    21538

原文標題:Tune-A-Video論文解讀(小黑子的狂歡)

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    App Tune-up Kit Pofiler工具使用介紹

    介紹APP Tune-up Kit 是高通公司開發(fā)的一款分析任何Android 應用分析的工具,不同于Snapdragon Profiler它操作簡單,界面簡潔,只需要按一下,就可以在60秒內(nèi)獲取
    發(fā)表于 09-21 10:49

    Auto Tune Vocal EQ均衡器永久版發(fā)布

    Antares在今年6月發(fā)布了這款均衡器,起初一直是Auto-Tune Unlimited訂閱版的一部分,現(xiàn)在推出了永久版授權。廠家宣稱在2022年9月6號-10月6號限時銷售永久版,零售價格為
    發(fā)表于 09-11 08:29

    Composite Video Separation Tec

    The most fundamental job of a video decoder is to separatethe color from the black and white
    發(fā)表于 08-19 13:37 ?22次下載

    Video Amplifier with Sync Stri

    off the sync pulse and performing DC restoration. It is configured for a typical video cable driver application driving
    發(fā)表于 09-21 22:58 ?21次下載

    EL4501 pdf datasheet (Video Fr

    The EL4501 is a highly-integrated Video Front End (VFE)incorporating all of the key signal
    發(fā)表于 01-16 20:55 ?25次下載

    allegro如何走蛇行線(delay tune)

    蛇行線(delay tune)1. 前言蛇行線可在Allegro 中藉由elong_by_pick 自動完成.若想以半自動方式則可用delay tune 命令.2. 說明在15.1 中須下載新版ISR.Options 選項?
    發(fā)表于 09-06 11:30 ?0次下載

    Video and Image Processing Up

    from a standard definition video stream innational television system committee (NTSC) format to a high definition
    發(fā)表于 11-24 11:12 ?11次下載

    Digital Video Standards The 19

    The world of digital video standards is a complicated one,with many different standards groups
    發(fā)表于 07-11 16:27 ?3次下載

    Design and Layout of a Video G

    Design and Layout of a Video Graphics System for Reduced EMI
    發(fā)表于 10-02 09:19 ?28次下載
    Design and Layout of <b class='flag-5'>a</b> <b class='flag-5'>Video</b> G

    How to Tune and Antenna Match

    How to Tune and Antenna Match the MAX1470 Circuit The MAX1470evkit is tuned and tested at the factory to obtain the highest se
    發(fā)表于 09-17 16:16 ?1620次閱讀
    How to <b class='flag-5'>Tune</b> and Antenna Match

    X1_Tune_v1.3

    X1 Tune v1.3X1 Tune v1.3X1 Tune v1.3
    發(fā)表于 01-15 17:08 ?4次下載

    使用Atmel Studio 6中的優(yōu)化向導來調整QTouter設計

    This video shows you how to tune a Qtouch design for optimal performance using the Tuning Wizard
    的頭像 發(fā)表于 07-06 02:31 ?3274次閱讀

    openEuler Summit開發(fā)者峰會:基于AI的操作系統(tǒng)性能調優(yōu)引擎A-Tune

    openEuler Summit開發(fā)者峰會:基于AI的操作系統(tǒng)性能調優(yōu)引擎A-Tune
    的頭像 發(fā)表于 11-10 10:51 ?1750次閱讀
    openEuler Summit開發(fā)者峰會:基于AI的操作系統(tǒng)性能調優(yōu)引擎<b class='flag-5'>A-Tune</b>

    歐拉(openEuler)Summit 2021:歐拉demo分享——A-Tune

    歐拉(openEuler)Summit 2021上,關于A-Tune:基于AI的操作系統(tǒng)性能調優(yōu)引擎案例分享。
    的頭像 發(fā)表于 11-10 10:18 ?1523次閱讀
    歐拉(openEuler)Summit 2021:歐拉demo分享——<b class='flag-5'>A-Tune</b>

    A-Tune系統(tǒng)性能自優(yōu)化軟件

    gitee-A-Tune.zip
    發(fā)表于 04-28 10:18 ?1次下載
    <b class='flag-5'>A-Tune</b>系統(tǒng)性能自優(yōu)化軟件
    主站蜘蛛池模板: 美女扒开尿囗给男人玩的动图 | 亚洲伦理中文字幕一区 | 久久天天 | 俄罗斯美女在线观看一区 | 久久精品亚瑟全部免费观看 | 免费一看一级毛片 | 五月婷婷激情在线 | 天天操天天干天天射 | 免费h网站在线观看 | 欧美精品色精品一区二区三区 | 综合色视频 | 欧美福利片在线观看 | 久久综合久色欧美婷婷 | 欧美成人综合在线 | v视界影院最新地址 | 国产一级大片在线观看 | 天堂8中文在线bt | 国产aaaaaaa毛片 | 午夜小视频男女在线观看 | 精品卡1卡2卡三卡免费网站视频 | 99国产精品农村一级毛片 | 色视频在线观看 | 久久久精品2021免费观看 | 五月天婷五月天综合网在线 | 在线视频一区二区 | 美女国产 | 天天色天天拍 | 在线观看免费视频 | 96一级毛片| 欧美美女一区二区三区 | 国产a一级毛片午夜剧场14 | 午夜毛片在线观看 | 色五月激情五月 | 欧美在线观看www | 在线播放交视频 | 色多多污网站在线观看 | 免费一级成人毛片 | 欧美成人午夜片一一在线观看 | 好爽的视频黄 | 欧美一区二区三区高清视频 | 亚洲午夜一区二区三区 |