電子發(fā)燒友網(wǎng)綜合報道 2025年7月2日,百度在北京正式發(fā)布全球首個中文音視頻一體化生成模型——MuseSteamer,標志著其正式進軍圖生視頻領域。這款模型憑借多模態(tài)指令理解、動態(tài)內(nèi)容生成及音畫同步等核心技術突破,為廣告商、影視創(chuàng)作者及中小企業(yè)提供高效、低成本的視頻創(chuàng)作解決方案,重新定義了AI視頻生成的技術標準與應用邊界。
從指令理解到動態(tài)敘事的全鏈路創(chuàng)新
MuseSteamer的核心能力體現(xiàn)在三大技術維度,包括多模態(tài)指令極致遵循、動態(tài)內(nèi)容生成與運鏡自動化、中文音視頻一體化生成。
多模態(tài)指令極致遵循方面,MuseSteame模型通過億級中文多模態(tài)數(shù)據(jù)庫與三級語義對齊優(yōu)化,實現(xiàn)文本指令與視覺元素的精準匹配。例如,在生成的武俠視頻中,俠客的斗笠微表情、怪物鱗片反光等細節(jié)均嚴格遵循指令描述,動作軌跡符合物理規(guī)律,甚至支持“10秒超長鏡頭+1080P高清畫質(zhì)”的電影級敘事。
動態(tài)內(nèi)容生成與運鏡自動化方面,MuseSteame采用3D時空聯(lián)合注意力機制,模型可自動完成俯拍、環(huán)繞運鏡等專業(yè)鏡頭語言。以沙漠越野短片為例,系統(tǒng)同步生成輪胎摩擦聲、發(fā)動機轟鳴聲,聲效與畫面動作的物理規(guī)律高度契合,實現(xiàn)“所見即所感”的沉浸式體驗。
中文音視頻一體化生成方面,這是全球首個支持中文文本、參考圖像、音效及臺詞同步生成的模型,通過多人語音對齊編排技術,解決傳統(tǒng)AIGC“先畫面后配音”的割裂問題。例如,在咖啡廳場景短片中,女主角睫毛顫動與咖啡蒸汽的視覺細節(jié),與背景環(huán)境音、人物臺詞形成時空同步。
數(shù)據(jù)、算法與場景的三重壁壘
相較于快手可靈、Sora等競品,MuseSteamer構建了三大護城河:數(shù)據(jù)壁壘 、算法效率、成本與場景覆蓋。數(shù)據(jù)壁壘方面,MuseSteamer構建億級規(guī)模中文多模態(tài)數(shù)據(jù)庫,通過“篩選-凈化-配比”體系,實現(xiàn)中文語境下文本與視覺的語義對齊精度領先行業(yè)。例如,針對動漫場景優(yōu)化數(shù)據(jù)后,模型可在一個月內(nèi)快速適配客戶提出的二次元風格需求。
算法效率方面,MuseSteamer采用精細化結(jié)構設計,支持多模態(tài)條件輸入,運算效率較傳統(tǒng)模型提升40%。在1080P高清視頻生成中,轉(zhuǎn)場流暢度與物理運動真實性達電影級標準,同時將訓練周期縮短至三個月。
成本與場景覆蓋方面,MuseSteamer推出Turbo(免費公測)、Lite(精準動作控制)、Pro(1080P電影運鏡)三版本矩陣,定價低于市場競品30%。其中,Turbo版面向長尾需求,Pro版服務高端影視制作,形成全場景覆蓋。
從專業(yè)創(chuàng)作到大眾表達的范式革命
MuseSteamer已滲透四大核心場景:廣告營銷、影視創(chuàng)作、中小企業(yè)賦能、公益領域。如廣告營銷場景中,某美妝品牌利用模型生成“女主角喝咖啡特寫”短片,通過王家衛(wèi)式色彩美學與1080P細節(jié)刻畫,將點擊率提升65%,成本降低50%。
影視創(chuàng)作領域,如在古裝武俠視頻中,模型自動生成俠客拔劍起手式、怪物咆哮碎石特效等復雜動作,快慢鏡頭交替運用,渲染出堪比專業(yè)團隊的敘事張力。
中小企業(yè)賦能領域,某本地商家通過Lite版生成產(chǎn)品演示動畫,精準控制機械部件運動軌跡,將制作周期從兩周壓縮至兩天。公益領域中,金山辦公“實時同傳字幕”功能集成MuseSteamer,為聽障用戶提供視頻字幕生成服務,已惠及上萬人。
MuseSteamer的發(fā)布,不僅是技術層面的突破,更標志著AI視頻生成從“專業(yè)實驗室”走向“大眾創(chuàng)作場”。通過免費公測策略與分層付費模式,百度正降低技術使用門檻,讓每個人都能成為自己故事的導演。正如百度副總裁陳一凡所言:“技術不應是少數(shù)人的特權,而是每個人表達創(chuàng)意的畫筆?!蔽磥恚S著模型在動態(tài)內(nèi)容可控性、4K/8K超高清生成等方向持續(xù)進化,AI視頻生成或?qū)⒋呱碌膬?nèi)容產(chǎn)業(yè)生態(tài)。
-
百度
+關注
關注
9文章
2333瀏覽量
92152
發(fā)布評論請先 登錄
泰芯半導體推出星閃音視頻無線SOC芯片TXW828
百度地圖重磅發(fā)布地圖AI開放平臺
百度發(fā)布2025年Q1財報 蘿卜快跑一季度全球訂單超140萬

百度發(fā)布文心4.5 Turbo、X1 Turbo和多款AI應用
百度發(fā)布文心大模型4.5和文心大模型X1
實用調(diào)試技能:全志T113-i 音視頻測試

評論