在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OpenAI文生視頻模型Sora要點分析

架構師技術聯盟 ? 來源:芯智訊 ? 2024-02-22 16:37 ? 次閱讀

? 近日,美國人工智能公司OpenAI發布了首個視頻生成模型Sora。不同于此前許多AI大模型文生圖或視頻時,會出現人物形象前后不一致等問題,此次OpenAI展示的Sora生成的視頻中的主角、背景人物,都展現了極強的一致性,可以支持60秒一鏡到底,并包含高細致背景、多角度鏡頭,以及富有情感的多個角色,可謂是相當的“炸裂”。甚至有不少人疾呼,傳統視頻制作行業將會被“革命”!

相關內容參考“OpenAI視頻模型Sora替代品分析(2024)”、“一場AI“革命”開始,OpenAI文生視頻模型Sora”。

據OpenAI官網介紹,Sora“通過一次性為模型提供多幀的預測,我們解決了一個具有挑戰性的問題”。據了解,此次大模型完美繼承DALL·E 3的畫質和遵循指令能力,能生成長達1分鐘的高清視頻。并且在隨后公布的多段AI生成的視頻中,無論鏡頭如何切換,人物前后都保持了高度的穩定性。

總結來說,Sora大模型的強大之處主要有以下六點:

1、文本到視頻生成能力:Sora能夠根據用戶提供的文本描述生成長達60S的視頻,這些視頻不僅保持了視覺品質,而且完整準確還原了用戶的提示語。

2、復雜場景和角色生成能力:Sora能夠生成包含多個角色、特定運動類型以及主題精確、背景細節復雜的場景。它能夠創造出生動的角色表情和復雜的運鏡,使得生成的視頻具有高度的逼真性和敘事效果。

3、語言理解能力:Sora擁有深入的語言理解能力,能夠準確解釋提示并生成能表達豐富情感的角色。這使得模型能夠更好地理解用戶的文本指令,并在生成的視頻內容中忠實地反映這些指令。

4、多鏡頭生成能力:Sora可以在單個生成的視頻中創建多個鏡頭,同時保持角色和視覺風格的一致性。這種能力對于制作電影預告片、動畫或其他需要多視角展示的內容非常有用。

5、從靜態圖像生成視頻能力:Sora不僅能夠從文本生成視頻,還能夠從現有的靜態圖像開始,準確地動畫化圖像內容,或者擴展現有視頻,填補視頻中的缺失幀。

6、物理世界模擬能力:Sora展示了人工智能在理解真實世界場景并與之互動的能力,這是朝著實現通用人工智能(AGI)的重要一步。它能夠模擬真實物理世界的運動,如物體的移動和相互作用。 可以說,Sora的出現,預示著一個全新的視覺敘事時代的到來,它能夠將人們的想象力轉化為生動的動態畫面,將文字的魔力轉化為視覺的盛宴。在這個由數據和算法編織的未來,Sora正以其獨特的方式,或將重新定義我們與數字世界的互動。

OpenAI在模型公布后的不久,就公布了相關的技術論文《Video generation models as world simulators》。以下為論文的主要內容:

a492a0d4-d119-11ee-a297-92fbcf53809c.png

Sora的技術特點

三維空間的連貫性:Sora可以生成帶有動態相機運動的視頻。隨著相機移動和旋轉,人物和場景元素在三維空間中保持連貫的運動。

模擬數字世界:Sora還能模擬人工過程,如視頻游戲。Sora能夠同時控制Minecraft中的玩家,并高保真地渲染游戲世界及其動態。通過提及“Minecraft”的提示,可以零樣本地激發Sora的這些能力

長期連續性和物體持久性:對視頻生成系統來說,Sora通常能夠有效地模擬短期和長期的依賴關系。同樣,它能在一個樣本中生成同一角色的多個鏡頭,確保其在整個視頻中的外觀一致。

與世界互動:Sora有時能夠模擬對世界狀態產生簡單影響的行為。例如,畫家可以在畫布上留下隨時間持續的新筆觸,或者一個人吃漢堡時留下咬痕。

訓練過程

Sora 的訓練受到了大語言模型(Large Language Model)的啟發。這些模型通過在互聯網規模的數據上進行訓練,從而獲得了廣泛的能力。

Sora實際上是一種擴散型變換器模型(diffusion transformer)。首先將視頻壓縮到一個低維潛在空間中,然后將這種表現形式分解成時空區塊,從而將視頻轉換為區塊。它能夠接受帶有噪聲的patch(和條件信息,如文本提示)作為輸入,隨后被訓練,來預測原始的“干凈”patch。

a497c9e2-d119-11ee-a297-92fbcf53809c.png

訓練了一個用于降低視覺數據維度的網絡。這個網絡以原始視頻為輸入,輸出在時間和空間上都被壓縮的潛在表示。Sora在這個壓縮的潛在空間上進行訓練,并在此空間中生成視頻。還開發了一個對應的解碼器模型,它能將生成的潛在表示映射回到像素空間。

對于給定的壓縮輸入視頻,提取一系列時空區塊,它們在變換器模型中充當標記(token)。這種方案同樣適用于圖像,因為圖像本質上是單幀的視頻。基于區塊的表示方法使Sora能夠針對不同分辨率、持續時間和縱橫比的視頻和圖像進行訓練。在推理過程中,可以通過在適當大小的網格中排列隨機初始化的區塊來控制生成視頻的大小。

隨著 Sora 訓練計算量的增加,樣本質量有了顯著提升。

Sora訓練時沒有對素材進行裁切,使得Sora能夠直接為不同設備以其原生縱橫比創造內容。針對視頻的原生縱橫比進行訓練,還可以提高構圖和取景的質量。

它還可以先以較低分辨率快速制作出視頻原型,再用相同的模型制作出全分辨率的視頻。

訓練文本到視頻的生成系統需要大量配有相應文本提示的視頻。應用了在DALL·E 3中引入的重新字幕技術到視頻上。

與DALL·E 3相似,也利用了GPT技術,將用戶的簡短提示轉換成更詳細的提示,然后發送給視頻模型。

論文關鍵點

OpenAI 的研究論文《Video generation models as world simulators》探討了在視頻數據上進行大規模訓練生成模型的方法。這項研究特別關注于文本條件擴散模型,這些模型同時在視頻和圖像上進行訓練,處理不同時長、分辨率和寬高比的數據。研究中提到的最大模型 Sora 能夠生成長達一分鐘的高保真視頻。以下是論文的一些關鍵點:

統一的視覺數據表示:研究者們將所有類型的視覺數據轉換為統一的表示,以便進行大規模的生成模型訓練。Sora 使用視覺補丁(patches)作為其表示方式,類似于大型語言模型(LLM)中的文本標記。

視頻壓縮網絡:研究者們訓練了一個網絡,將原始視頻壓縮到一個低維潛在空間,并將其表示分解為時空補丁。Sora 在這個壓縮的潛在空間中進行訓練,并生成視頻。

擴散模型:Sora 是一個擴散模型,它通過預測原始“干凈”的補丁來從輸入的噪聲補丁中生成視頻。擴散模型在語言建模、計算機視覺和圖像生成等領域已經顯示出了顯著的擴展性。

視頻生成的可擴展性:Sora 能夠生成不同分辨率、時長和寬高比的視頻,包括全高清視頻。這種靈活性使得 Sora 能夠直接為不同設備生成內容,或者在生成全分辨率視頻之前快速原型化內容。

語言理解:為了訓練文本到視頻生成系統,需要大量的視頻和相應的文本標題。研究者們應用了在 DALL·E 3 中引入的重新描述技術,首先訓練一個高度描述性的標題生成器,然后為訓練集中的所有視頻生成文本標題。

圖像和視頻編輯:Sora 不僅能夠基于文本提示生成視頻,還可以基于現有圖像或視頻進行提示。這使得 Sora 能夠執行廣泛的圖像和視頻編輯任務,如創建完美循環的視頻、動畫靜態圖像、向前或向后擴展視頻等。

模擬能力:當視頻模型在大規模訓練時,它們展現出了一些有趣的新興能力,使得 Sora 能夠模擬物理世界中的某些方面,如動態相機運動、長期一致性和對象持久性等。

雖然存在不足之處,但這不是關鍵

盡管 Sora 展示了作為模擬器的潛力,但它仍然存在許多局限性,例如在模擬基本物理交互時的準確性不足。

比如下面這個由 Sora 生成的視頻當中,動物的數量隨著時間的推移出現了明顯的錯亂,多個動物憑空出現又憑空消失了。此外,在一些生成的視頻當中還會出現違反物理規則的現象。但是,對于新生的Sora來說,這些都不是關鍵,后續完全能夠通過技術迭代來進行完善和改進。

這也是為什么,Sora雖然有一些不完美之處,但是外界仍一致認為它將會革命性地改變許多行業。

可以說,目前的Sora已經擁有了足以改變視頻廣告行業的能力,如果持續迭代,并在保持穩定性和一致性的前提下,進一步支持更復雜的交互、更長的視頻時長,并加入更為豐富的AI視頻編輯功能,必將對于現有的影視制作產業帶來革命。

試想一下,如果將一部小說輸入Sora就能夠生成一部高質量的電影,這將會是多么的激動人心!這將極大的降低視頻創作的門檻,并提升視頻的質量,這對于整個行業來說都將帶來更為積極的意義。當然,這也將會沖擊到現有的傳統視頻制作產業鏈上的諸多從業者,恐怕很多演員、導演、攝影師,以及很多相關的服裝、化妝、道具人員都將要失業了。

來源:芯智訊 原文:

https://mp.weixin.qq.com/s/_WIFlmCzQHS4K1fRSkgmYg





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1161

    瀏覽量

    41572
  • 變換器
    +關注

    關注

    17

    文章

    2124

    瀏覽量

    110207
  • 人工智能
    +關注

    關注

    1804

    文章

    48449

    瀏覽量

    244998
  • OpenAI
    +關注

    關注

    9

    文章

    1197

    瀏覽量

    8328
  • Sora
    +關注

    關注

    0

    文章

    83

    瀏覽量

    399

原文標題:一場AI“革命”開始,OpenAI文生視頻模型Sora要點分析

文章出處:【微信號:架構師技術聯盟,微信公眾號:架構師技術聯盟】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    OpenAI提交新商標的申請

    的前沿。2024 年,OpenAI 發布首個視頻生成模型 Sora,展示了其在多模態領域的技術實力。此次申請新商標
    的頭像 發表于 02-05 16:38 ?570次閱讀

    OpenAI攻克Sora視頻創建錯誤率高難題

    在人工智能與多媒體技術的交叉領域,OpenAI近期宣布了一項重要進展:成功解決了Sora視頻創建過程中錯誤率高的問題。這一突破不僅標志著OpenAI
    的頭像 發表于 12-31 10:37 ?385次閱讀

    OpenAI暫不推出Sora視頻生成模型API

    OpenAI近日宣布,目前暫無推出其視頻生成模型Sora的應用程序接口(API)的計劃。Sora模型
    的頭像 發表于 12-20 14:23 ?412次閱讀

    成都匯陽投資關于Sora 正式上線,多模態模型的里程碑

    、時長為20秒的高級視頻,并且提供去水印功能。 新?Sora?視頻再創作能力大幅提升 ?相較于?OpenAI2?月份發布的版本,?此次上線的新?So
    的頭像 發表于 12-16 14:39 ?530次閱讀

    OpenAI推出AI視頻生成模型Sora

    近日,備受期待的OpenAI再次推出了其創新之作——AI視頻生成模型Sora。這一新品的發布,無疑為AI技術注入了新的活力。 據悉,Sora
    的頭像 發表于 12-12 09:40 ?544次閱讀

    OpenAI開放Sora視頻生成模型

    OpenAI近日宣布,其傾力打造的人工智能視頻生成系統Sora已正式向美國及其他市場的ChatGPT Plus訂閱用戶開放。自去年首次公開預覽以來,Sora歷經約10個月的精心研發與優
    的頭像 發表于 12-10 11:16 ?559次閱讀

    騰訊混元大模型上線并開源文生視頻能力

    近日,騰訊宣布其混元大模型正式上線,并開源了一項令人矚目的能力——文生視頻。該大模型參數量高達130億,支持中英文雙語輸入,為用戶提供了更為便捷和多樣化的
    的頭像 發表于 12-04 14:06 ?429次閱讀

    OpenAI發布新型AI文生圖方案sCM,效率大幅提升

    近日,OpenAI公布了一款名為sCM(Continuous-Time Consistency Model)的新型人工智能文生圖方案,為圖像生成領域帶來了革命性的突破。 與傳統的擴散模型相比,sCM
    的頭像 發表于 10-29 15:09 ?557次閱讀

    玩具反斗城使用OpenAISora文本轉視頻工具制作"品牌電影"

    你對玩具反斗城(Toys“R”Us)有美好的回憶嗎?據悉,該玩具零售巨頭正借助人工智能技術謀求品牌復興,近日發布了一則聲稱使用OpenAISora文本轉視頻工具制作的"品牌電影",引發業界關注
    的頭像 發表于 07-03 16:40 ?987次閱讀

    Sora還在PPT階段,“中國版Sora”已經開放使用了!

    電子發燒友網報道(文/梁浩斌)今年春節期間,OpenAI的AI文字生成視頻模型Sora驚艷全世界,極高的視頻生成效果、長達60秒的
    的頭像 發表于 06-17 09:07 ?3837次閱讀

    OpenAI 深夜拋出王炸 “ChatGPT- 4o”, “她” 來了

    當地時間5月13日OpenAI推出ChatGPT-4o,代表了人工智能向前邁出的一大步。在GPT-4turbo的強大基礎上,這種迭代擁有顯著的改進。在發布會的演示中,OpenAI展示該模型的高級
    發表于 05-27 15:43

    谷歌發布AI文生圖大模型Imagen

    近日,谷歌在人工智能領域取得新突破,正式推出了Imagen文生模型。這款模型以其卓越的細節調整功能、逼真的光線效果以及從草圖快速生成高分辨率圖像的能力,引起了業界的廣泛關注。
    的頭像 發表于 05-16 09:30 ?735次閱讀

    OpenAI推出全新大語言模型

    今日凌晨,科技界迎來了一次激動人心的突破。OpenAI正式發布了全新的旗艦模型GPT-4o,這一模型展現了跨視頻、音頻、文本進行實時推理的驚人能力。GPT-4o不僅是一個多模態
    的頭像 發表于 05-14 11:53 ?767次閱讀

    智譜AI正在研發國產文生視頻模型,對標OpenAI Sora

    國內AI領域的獨角獸企業智譜AI正全力研發一款與OpenAISora相媲美的國產文生視頻模型。據悉,該
    的頭像 發表于 05-13 11:14 ?818次閱讀

    智譜AI正研發對標Sora的國產文生視頻模型

    智譜AI,這家國內估值超過200億的AI大模型獨角獸企業,正全力投入研發一款與OpenAISora相媲美的國產文生視頻
    的頭像 發表于 05-07 09:22 ?661次閱讀
    主站蜘蛛池模板: 88xx成人永久免费观看 | 色中文字幕| 狠狠狠色丁香婷婷综合激情 | 狠狠躁夜夜躁人人爽天天天天 | 一级黄视频 | 久色国产 | 欧美另类v | 手机在线看片你懂得 | 国产黄色一级网站 | 天堂一区二区在线观看 | 婷婷丁香花 | 久青草视频免费视频播放线路1 | 天天操天天谢 | 亚洲免费一级片 | 青青导航 | 天堂资源最新版在线官网 | 亚洲婷婷综合色高清在线 | 1024手机看片你懂得的 日韩欧美 | 一本到午夜92版免费福利 | 激情综合五月天丁香婷婷 | 美女被免费视频的网站 | 人人爽人人看 | 亚洲伊人久久大香线蕉综合图片 | 色婷婷精品视频 | 国产高清色播视频免费看 | 男女吃奶一进一出动态图 | 久久精品国产大片免费观看 | 亚洲第一色视频 | 亚洲视频1区 | 免费人成在线观看网站品爱网 | 亚洲free| 影音先锋 色天使 | 色综合色综合色综合色综合网 | 成人观看网站a | 亚洲色播永久网址大全 | 久久精品久久久 | 欧美一级艳片视频免费观看 | 日a在线 | 久草免费在线播放 | 人人澡人人搞 | 酒色影院 |