近日,南開大學和字節跳動聯合開發的 StoryDiffusion 模型解決了擴散模型生成連貫圖像與視頻的難題。其核心在于“一致自注意力”機制,強化圖像間一致性,無需額外訓練即可提升現有文本到圖像模型的表現。加之“語義運動預測器”,利用語義空間預測圖像序列間的流暢變換,尤其在長視頻生成中展現了前所未有的穩定性與主體一致性。此框架使基于文本的復雜故事視覺化成為可能,不僅在角色與場景細節一致性上超越 IP-Adapter 等工具,還能精準匹配文本描述。
南開大學和字節跳動聯合開發的StoryDiffusion模型是一種新的機器學習技術,主要用于生成具有長距離相關性的圖像和視頻。以下是該模型的一些主要特點:
1.一致性自注意力(Consistent Self-Attention):該模型通過一種新的自注意力計算方法,在生成圖像時建立批內圖像之間的聯系,以保持人物的一致性。這種機制無需訓練即可生成主題一致的圖像,解決了在一系列生成的圖像中保持內容一致性的挑戰,尤其是對于包含復雜主題和細節的圖像。
2.語義運動預測器(Semantic Motion Predictor):為了將這種方法擴展到長視頻生成,StoryDiffusion引入了語義運動預測器,將圖像編碼到語義空間,并預測語義空間中的運動,以生成視頻。這種基于語義空間的運動預測比僅基于潛在空間的預測更加穩定。
3.兩階段長視頻生成方法:通過Consistent self-attention機制生成的圖像可以順利過渡為視頻,實現兩階段長視頻生成方法。結合這兩個部分,可以生成常長且高質量的AIGC視頻。
4.用戶交互性:用戶可以通過提供一系列用戶輸入的條件圖像,使用Image-to-Video模型生成視頻。此外,用戶還可以通過Jupyter notebook或本地adio demo來生成漫畫。
5.應用范圍:StoryDiffusion的應用范圍廣泛,包括漫畫生成、圖像轉視頻等多種場景。
StoryDiffusion模型利用了一種稱為StoryGAN的生成模型,該模型可以根據輸入的故事情節和場景描述生成相關的圖像和視頻。這項技術有助于解決傳統圖像和視頻生成技術中的局限性,使得生成的圖像和視頻更加自然和連貫。
-
機器學習
+關注
關注
66文章
8477瀏覽量
133793 -
字節跳動
+關注
關注
0文章
344瀏覽量
9264
發布評論請先 登錄
相關推薦
字節跳動豆包大模型1.5 Pro發布
字節跳動發布豆包大模型1.5 Pro
字節跳動推出海外AI中文開發環境IDE:Trae
字節跳動與努比亞合作開發AI手機
纖納光電與南開國家新材料研究院簽訂合作備忘錄
字節跳動否認與中興通訊合作傳聞
字節跳動自研視頻生成模型Seaweed開放
字節跳動計劃在歐洲設立AI研發中心
字節跳動與清華AIR成立聯合研究中心
TINA-TI 9與TINA8對同一個電路圖仿真結果不同是怎么回事?
字節跳動發布豆包MarsCo智能開發工具
字節跳動攜手博通開發5nm AI處理器,保障高端芯片供應
南開大學攜手華為發布“人工智能賦能人才培養行動計劃”

評論