在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

字節跳動推出一款顛覆性視頻模型—Boximator

jf_WZTOguxH ? 來源:Boximator論文 ? 2024-02-20 13:44 ? 次閱讀

來源|AIGC開放社區

在 Sora 引爆文生視頻賽道之前,國內的字節跳動也推出了一款顛覆性視頻模型——Boximator。

與 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通過文本精準控制生成視頻中人物或物體的動作。

例如,下雨天,大風把一位女生的雨傘吹走了。目前,很少有視頻模型能精準做到這一點。

Boximator 案例賞析

我們先看一下 Boximator 與 Gen-2、Pink1.0,在使用相同的文本提示詞、圖像生成的視頻,所表現出來的不同動作。

為了方便觀察,「AIGC 開放社區」將對比視頻整合在一起,最左邊的是 Boximator 生成的視頻。

一個可愛的 3D 男孩站著,然后走路

在這個案例中,Pika 1.0 生成的視頻男孩只是站著沒有走動,Gen-2 的視頻走動了但不明顯,只有 Boximator 產生了明顯的走動動作。

一位英俊的男人用他的右手從口袋里拿出一朵玫瑰,并且在看著這朵玫瑰

這個案例 Pika 1.0 和 Gen-2 表現的都非常不好,男士沒有掏出玫瑰花的動作。Boximator 再一次完美理解文本語義并做出了相應的動作。

往杯子里加紅酒

這個案例主要展示了控制物體動作的能力,Pika 1.0 和 Gen-2 都做出了倒酒的動作,但是杯子里的酒沒有明顯上升的動作。只有 Boximator 做到了倒酒 + 上升兩個動作。

看了這 3 個案例,能感受到 Boximator 對文本語義精準理解,以及對動作控制的強大功能了吧。

Boximator 模型介紹

為了實現對視頻中物體、人物的動作控制,Boximator 使用了“軟框”和“硬框”兩種約束方法。

硬框:可精確定義目標對象的邊界框。用戶可以在圖片中畫出感興趣的對象,Boximator 會將其視為硬框約束, 在之后的幀中精準定位該對象的位置。

22fcfe7e-cfb2-11ee-a297-92fbcf53809c.png

軟框:軟框定義一個對象可能存在的區域, 形成一個寬松的邊界框。對象需要停留在這個區域內, 但位置可以有一定變化,實現適度的隨機性。

兩類框都包含目標對象的 ID, 用于在不同幀中跟蹤同一對象。此外, 框還包含坐標、類型等信息的編碼。

控制模塊和訓練策略

控制模塊可以將框約束的編碼與視頻幀的視覺編碼結合,用來指導視頻的精準動作生成。包含框編碼器和自注意力層兩大塊。

框編碼器:將框的坐標、ID、類型等信息, 通過 Fourier 編碼和 MLP 映射為控制向量。

自注意力層:將框的控制向量與視頻幀的視覺向量通過自注意力建模其關系, 學習將框指導幀生成。

訓練策略方面,Boximator 主要分為兩個階段: 自跟蹤階段,訓練模型的同時生成視頻內容和對應的框,并簡化框與對象的關系學習。

正常訓練,訓練模型只生成視頻內容, 框的內在表達已經學會指導對象生成。此外, 訓練還使用多階段策略,逐步過渡從硬框到軟框的約束, 以及適當融合無框數據。

Boximator 實驗數據

為獲得視頻訓練數據, 研究人員從 WebVid-10M 數據集中,過濾出 110 萬段動態明顯的視頻片段, 并自動為其注釋了 220 萬個對象的邊界框。并在 PixelDance 和 ModelScope 這兩個模型上訓練了 Boximator。

實驗數據顯示,Boximator 在保持原模型視頻質量, 具有非常強大的動作控制能力。同時可以作為一種插件,幫助現有視頻擴散模型提升生成質量。

在 MSR-VTT 數據集上, 無論是視頻質量還是框與對象對齊精度方面,Boximator 都優于原模型。在人類評估中,Boximator 生成的視頻也在質量和運動控制上明顯超過原模型。

239eb6ce-cfb2-11ee-a297-92fbcf53809c.png

字節跳動的研究人員表示,目前該模型處于研發階段,預計 2-3 個月內發布測試網站。讓我們期待一下國內挑戰 Sora 的產品誕生吧!




審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 字節跳動
    +關注

    關注

    0

    文章

    346

    瀏覽量

    9400
  • Sora
    +關注

    關注

    0

    文章

    83

    瀏覽量

    449

原文標題:字節跳動推出顛覆性文生視頻模型,可自由控制動作!

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    字節豆包大模型團隊提出稀疏模型架構

    字節跳動豆包大模型Foundation團隊近期研發出UltraMem,種創新的稀疏模型架構,旨在解決推理過程中的訪存問題,同時確保
    的頭像 發表于 02-13 15:25 ?573次閱讀

    字節跳動否認趙明加盟及自研手機傳聞

    近日,市場傳出榮耀前CEO趙明即將加盟字節跳動,并可能主導其手機業務的消息。與此同時,還有傳聞稱字節跳動有意推出主打AI概念的手機產品,這
    的頭像 發表于 02-10 09:12 ?533次閱讀

    字節跳動即將推出多模態視頻生成模型OmniHuman

    字節跳動旗下站式AI創作平臺即夢AI即將迎來重大更新,全新多模態視頻生成模型OmniHuman即將上線。這款
    的頭像 發表于 02-08 10:53 ?700次閱讀

    字節跳動發布OmniHuman 多模態框架

    2 月 6 日消息,字節跳動近日發布了項重大成果 ——OmniHuman 多模態框架,其優勢在于其強大的視頻生成能力。用戶只需提供張任意
    的頭像 發表于 02-07 17:50 ?741次閱讀

    字節跳動豆包大模型1.5 Pro發布

    近日,字節跳動旗下的豆包大模型迎來了全新的升級——豆包大模型1.5 Pro正式發布。這款全新模型在知識、代碼、推理、中文等多個測評基準上表現
    的頭像 發表于 01-23 15:24 ?573次閱讀

    字節跳動發布豆包大模型1.5 Pro

    字節跳動正式發布了豆包大模型1.5 Pro。 全新的Doubao -1.5 - pro模型綜合能力顯著增強,在知識、代碼、推理、中文等多個測評基準上,綜合得分優于GPT - 4o、Cl
    的頭像 發表于 01-23 10:24 ?565次閱讀

    字節跳動推出海外AI中文開發環境IDE:Trae

    字節跳動近期正式發布了一款名為Trae(trae.ai)的全新AI Coding產品,旨在為海外專業開發者提供個高效、智能的編程環境。這款產品的問世,標志著
    的頭像 發表于 01-21 10:33 ?1476次閱讀

    中科創達旗下MM Solutions推出突破視頻降噪算法

    在CES 2025上,中科創達旗下全球領先的移動和工業圖形圖像視覺技術公司MM Solutions重磅推出一款具有突破視頻降噪算法——MMS AI Video Denoiser。這
    的頭像 發表于 01-13 11:41 ?938次閱讀

    字節跳動否認與中興通訊合作傳聞

    模型已經與多個手機品牌建立了合作關系,但并未涉及與中興通訊在智能手機領域的合作。同時,字節跳動還強調,目前并不存在與中興通訊關于芯片合作的具體計劃。這澄清使得市場上對于兩家企業可能
    的頭像 發表于 12-18 10:08 ?1038次閱讀

    字節跳動自研視頻生成模型Seaweed開放

    近日,字節跳動旗下的AI內容平臺即夢AI傳來新消息,宣布自研的視頻生成模型Seaweed即日起正式面向平臺用戶開放使用。這舉措標志著
    的頭像 發表于 11-11 14:31 ?629次閱讀

    字節跳動計劃在歐洲設立AI研發中心

    字節跳動正積極布局歐洲市場,計劃在該地區設立AI研發中心。據知情人士透露,字節跳動已開始在歐洲尋找LLM(Large Language Model,大語言
    的頭像 發表于 10-28 11:04 ?971次閱讀

    今日看點丨Vishay裁員800人,關閉上海等三家工廠;字節跳動發布兩視頻生成大模型

    1. 字節跳動發布兩視頻生成大模型 面向企業市場開啟邀測 ? 9月24日,字節
    發表于 09-25 15:48 ?930次閱讀

    字節跳動豆包大模型已支持實時語音通話

    字節跳動火山引擎今日隆重推出創新對話式AI實時交互解決方案,該方案以火山方舟大模型服務平臺為核心,全面升級語音交互體驗。該方案深度融合火山引擎RTC技術,實現了語音數據的即時采集、高效
    的頭像 發表于 08-12 16:13 ?1134次閱讀

    華發數智攜手字節跳動共同發布AI數字人及大模型綜合解決方案

    近日,珠海華發數智技術有限公司(簡稱:華發數智)攜手字節跳動旗下領先的云服務平臺火山引擎,共同發布了AI數字人及大模型綜合解決方案,標志著華發集團在AI大模型技術探索與應用上邁出了重要
    的頭像 發表于 08-07 16:53 ?1150次閱讀

    字節跳動攜手博通開發5nm AI處理器,保障高端芯片供應

    在科技領域,芯片作為“現代工業的糧食”,其重要不言而喻。近日,據路透社報道,全球知名的互聯網公司字節跳動正在與美國芯片巨頭博通公司合作,共同開發一款5納米制程的AI處理器。這
    的頭像 發表于 06-24 16:16 ?1467次閱讀
    主站蜘蛛池模板: 色婷婷激婷婷深爱五月老司机 | 日本精品视频 | 国产精品第页 | 一级黄色片在线看 | 免费黄色欧美 | 俺去啦最新网址 | 久久大伊人 | 在线国产资源 | 黄色美女网站免费 | 99精品免费视频 | 香蕉久久久久久狠狠色 | 色视频色露露永久免费观看 | 2016天天干 | 五月深爱婷婷 | 人人干人人爽 | 狠狠色丁香久久综合婷婷 | 午夜女上男下xx00xx00动态 | 婷婷国产成人久久精品激情 | 国产黄在线观看免费观看不卡 | 欧美精品专区55页 | 午夜痒痒网 | 国产三级日本三级韩国三级在线观看 | 国产一级做a爰大片免费久久 | 波多野结衣的毛片 | 婷婷综合久久中文字幕 | 视频在线观看一区二区 | 亚洲欧美在线视频免费 | 夜夜爱视频 | 久久久久久久国产精品电影 | 五月天婷婷在线观看高清 | 天天色天天色 | av手机在线播放 | 亚洲成人在线播放 | 亚洲精品你懂的 | 色播影院性播免费看 | 国产乱人视频在线看 | 999毛片免费观看 | 欧洲精品不卡1卡2卡三卡 | 被啪漫画羞羞漫画 | 韩国一区二区三区视频 | 国产在线视欧美亚综合 |