近日,南開大學和字節跳動聯合開發的 StoryDiffusion 模型解決了擴散模型生成連貫圖像與視頻的難題。其核心在于“一致自注意力”機制,強化圖像間一致性,無需額外訓練即可提升現有文本到圖像模型的表現。加之“語義運動預測器”,利用語義空間預測圖像序列間的流暢變換,尤其在長視頻生成中展現了前所未有的穩定性與主體一致性。此框架使基于文本的復雜故事視覺化成為可能,不僅在角色與場景細節一致性上超越 IP-Adapter 等工具,還能精準匹配文本描述。
南開大學和字節跳動聯合開發的StoryDiffusion模型是一種新的機器學習技術,主要用于生成具有長距離相關性的圖像和視頻。以下是該模型的一些主要特點:
1.一致性自注意力(Consistent Self-Attention):該模型通過一種新的自注意力計算方法,在生成圖像時建立批內圖像之間的聯系,以保持人物的一致性。這種機制無需訓練即可生成主題一致的圖像,解決了在一系列生成的圖像中保持內容一致性的挑戰,尤其是對于包含復雜主題和細節的圖像。
2.語義運動預測器(Semantic Motion Predictor):為了將這種方法擴展到長視頻生成,StoryDiffusion引入了語義運動預測器,將圖像編碼到語義空間,并預測語義空間中的運動,以生成視頻。這種基于語義空間的運動預測比僅基于潛在空間的預測更加穩定。
3.兩階段長視頻生成方法:通過Consistent self-attention機制生成的圖像可以順利過渡為視頻,實現兩階段長視頻生成方法。結合這兩個部分,可以生成常長且高質量的AIGC視頻。
4.用戶交互性:用戶可以通過提供一系列用戶輸入的條件圖像,使用Image-to-Video模型生成視頻。此外,用戶還可以通過Jupyter notebook或本地adio demo來生成漫畫。
5.應用范圍:StoryDiffusion的應用范圍廣泛,包括漫畫生成、圖像轉視頻等多種場景。
StoryDiffusion模型利用了一種稱為StoryGAN的生成模型,該模型可以根據輸入的故事情節和場景描述生成相關的圖像和視頻。這項技術有助于解決傳統圖像和視頻生成技術中的局限性,使得生成的圖像和視頻更加自然和連貫。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
相關推薦
近日,字節跳動旗下的豆包大模型迎來了全新的升級——豆包大模型1.5 Pro正式發布。這款全新模型在知識、代碼、推理、中文等多個測評基準上表現
發表于 01-23 15:24
?228次閱讀
字節跳動近期正式發布了一款名為Trae(trae.ai)的全新AI Coding產品,旨在為海外專業開發者提供一個高效、智能的編程環境。這款
發表于 01-21 10:33
?569次閱讀
日前,纖納光電與南開大學國家新材料研究院簽約儀式暨鈣鈦礦光伏產業交流沙龍于南開大學材料科學與工程學院舉辦。纖納光電姚總、顏總、首席科學家楊旸教授出席,南開大學材料學院黨委書記邢麗芳,團委書記楊曉穎,及材料學院、電光學院、化學學院
發表于 01-02 14:45
?239次閱讀
大模型已經與多個手機品牌建立了合作關系,但并未涉及與中興通訊在智能手機領域的合作。同時,字節跳動還強調,目前并不存在與中興通訊關于芯片合作的具體計劃。這一澄清使得市場上對于兩家企業可能
發表于 12-18 10:08
?554次閱讀
近日,字節跳動旗下的AI內容平臺即夢AI傳來新消息,宣布自研的視頻生成模型Seaweed即日起正式面向平臺用戶開放使用。這一舉措標志著字節
發表于 11-11 14:31
?305次閱讀
近日,清華大學智能產業研究院(AIR)與字節跳動共同宣布成立“可擴展大模型智能技術聯合研究中心”(SIA Lab),并在清華
發表于 10-12 15:24
?450次閱讀
TINA-TI-9中的電路圖及AC仿真結果如下:
TINA-8中的電路圖及仿真結果如下:
電路圖源自《模擬電路基礎》P419頁碼, PID放大器 ,作者:秦世才、賈香鸞;南開大學出版社。
發表于 09-25 06:03
在科技領域,芯片作為“現代工業的糧食”,其重要性不言而喻。近日,據路透社報道,全球知名的互聯網公司字節跳動正在與美國芯片巨頭博通公司合作,共同開發一款5納米制程的AI處理器。這
發表于 06-24 16:16
?1166次閱讀
為進一步推動人工智能與教育的深度融合,促進教育變革創新,培養智能時代公能兼備的高層次創新型人才,南開大學依托自身優勢,緊緊圍繞立德樹人根本任務,制定推出涵蓋教育教學、技術設施、管理服務三個篇章的“人工智能賦能人才培養行動計劃”(以下簡稱“行動計劃”)。
發表于 05-22 11:51
?716次閱讀
近日,在2024春季火山引擎FORCE原動力大會實體產業及教科研專場上,南開大學與火山引擎成功舉辦了深度合作簽約儀式。此次合作標志著雙方將攜手共筑“AI+教育”的新篇章,共同推動教育行業數字化轉型。
發表于 05-20 11:16
?668次閱讀
在近日舉行的火山引擎原動力大會上,字節跳動公司正式發布了其強大的豆包大模型。據火山引擎總裁譚待透露,這款大模型展現了驚人的數據處理能力,目前日均處理文本量高達1200億Tokens,并
發表于 05-15 11:26
?770次閱讀
3月7日,由OpenAtom OpenHarmony(以下簡稱“OpenHarmony”)項目群技術指導委員會與南開大學共同舉辦的“南開大學OpenHarmony技術俱樂部成立大會”在津南校區綜合
發表于 03-08 08:37
?441次閱讀
字節跳動辟謠推出中文版Sora 期待國產Sora大模型 “文成視頻大模型”的熱度持續火爆,大家都在期待國產的大模型面世。科技巨頭
發表于 02-21 17:29
?898次閱讀
近日,有傳聞稱字節跳動在Sora文生視頻模型發布之前,已經推出了一款名為Boximator的顛覆性視頻模型。傳聞還指出,這款
發表于 02-20 13:58
?730次閱讀
在 Sora 引爆文生視頻賽道之前,國內的字節跳動也推出了一款顛覆性視頻模型——Boximator。
發表于 02-20 13:44
?1187次閱讀
評論