2 月 6 日消息,字節跳動近日發布了一項重大成果 ——OmniHuman 多模態框架,其優勢在于其強大的視頻生成能力。用戶只需提供一張任意尺寸和人物占比的單張圖片,再結合一段輸入音頻,就能生成栩栩如生的人物視頻。
與傳統 AI 模型不同,OmniHuman-1 能夠生成逼真的全身動畫,并且可以精準地將手勢和面部表情與語音或音樂同步,打破了以往只能生成面部或上半身動畫的局限。
基于約 19000 小時的人類運動數據訓練,OmniHuman-1 模型支持不同的體型和畫面比例,能在內存限制內生成任意長度的視頻,并適應不同輸入信號,在真實性和準確性方面超越其他同類動畫工具。值得一提的是,它還支持卡通角色、人工物體、動物以及復雜姿勢的輸入,確保生成的動作特征與每種風格的獨特特點相匹配。
在實際應用場景中,OmniHuman 潛力巨大。在影視制作領域,創作者能輕松為虛擬角色打造全身動作戲份;虛擬直播里,主播動作更加自然,可增強直播的趣味性與吸引力;游戲世界中,數字人 NPC 的動作和表情更豐富,能提升玩家的沉浸感。
-
AI
+關注
關注
87文章
33747瀏覽量
274533 -
人工智能
+關注
關注
1804文章
48518瀏覽量
245423 -
字節跳動
+關注
關注
0文章
345瀏覽量
9297
發布評論請先 登錄
字節跳動否認趙明加盟及自研手機傳聞
字節跳動即將推出多模態視頻生成模型OmniHuman
快訊:字節跳動否認120億美元投資AI
字節跳動豆包大模型1.5 Pro發布
字節跳動發布豆包大模型1.5 Pro

評論