在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Sora與世界模型:為何它未能成為全面代表?

新機器視覺 ? 來源:算法進階 ? 2024-02-29 12:37 ? 次閱讀

新年伊始,OpenAI Sora 橫空出世,聲稱是“作為世界模擬視頻生成模型”(Video generation models as world simulators),讓“世界模型”這一概念再次進入人們的視野。那么什么是世界模型?Sora 到底是不是 world simulator 呢?南京大學人工智能學院教授俞揚近日撰文溯源了世界模型(world model)的概念,認為世界模型的核心作用是反事實推理,而 Sora 更多是視頻工具,難以作為反事實推理的工具準確回答 what if 問題。Sora沒有準確學到物理規律這一現象或許表明,簡單的堆砌數據并不是通向更高級智能技術的道路。

俞揚 | 作者
隨著媒體狂炒 Sora,OpenAI的介紹材料中稱Sora是 “world simulator”,世界模型這個詞又進入視野,但很少有文章來介紹世界模型。這里回顧一下什么是世界模型,以及討論 Sora 是不是 world simulator。

什么是世界模型

當AI領域中講到 世界/world、環境/environment 這個詞的時候,通常是為了與 智能體/agent 加以區分。研究智能體最多的領域,一個是強化學習,一個是機器人領域。因此可以看到,world models、world modeling 最早也最常出現在機器人領域的論文中。而今天world models這個詞影響最大的,可能是Jurgen 2018年放到arxiv的這篇以“world models”命名的文章,該文章最終以 “Recurrent World Models Facilitate Policy Evolution”的title發表在NeurIPS‘18。

62116b24-d6b8-11ee-a297-92fbcf53809c.png

論文題目:Recurrent World Models Facilitate Policy Evolution

論文地址:

https://worldmodels.github.io/

該論文中并沒有定義什么是World models,而是類比了認知科學中人腦的mental model,引用了1971年的文獻。

62258f96-d6b8-11ee-a297-92fbcf53809c.png

mental model是人腦對周邊世界的鏡像

Wikipedia 中介紹的 mental model,很明確的指出其可能參與認知、推理、決策過程。并且說到 mental model 主要包含 mental representations 和 mental simulation 兩部分。

an internal representation of external reality, hypothesized to play a major role incognition, reasoning and decision-making. The term was coined by Kenneth Craik in 1943 who suggested that the mind constructs "small-scale models" of reality that it uses to anticipate events.

到這里還是說得云霧繚繞,那么論文中的結構圖一目了然的說明了什么是一個world model:

623b5c72-d6b8-11ee-a297-92fbcf53809c.png

圖中縱向V->z是觀測的低維表征,用VAE實現,水平的M->h->M->h是序列的預測下一個時刻的表征,用RNN實現,這兩部分加起來就是World Model。

也就是說,World model 主要包含狀態表征和轉移模型,這也正好對應mental representations 和 mental simulation。

看到上面這張圖可能會想,這不是所有的序列預測都是world model了?其實熟悉強化學習的同學能一眼看出來,這張圖的結構是錯誤(不完整)的,而真正的結構是下面這張圖,RNN的輸入不僅是z,還有動作action,這就不是通常的序列預測了(加一個動作會很不一樣嗎?是的,加入動作可以讓數據分布自由變化,帶來巨大的挑戰)。

6243bf7a-d6b8-11ee-a297-92fbcf53809c.png

Jurgen的這篇論文屬于強化學習領域。那么,強化學習里不是有很多model-based RL嗎,其中的model跟world model有什么區別?答案是沒有區別,就是同一個東西。Jurgen先說了一段:

625e446c-d6b8-11ee-a297-92fbcf53809c.png

基本意思就是,不管有多少model-based RL工作,我是RNN先驅,RNN來做model是我發明的,我就是要搞。

在Jurgen文章的早期版本中,還說到很多 model-based RL,雖然學了model,但并沒有完全在model中訓練RL。

62771406-d6b8-11ee-a297-92fbcf53809c.jpg

沒有完全在model中訓練RL,實際上并不是model-based RL的model有什么區別,而是model-based RL這個方向長久以來的無奈:model不夠準確,完全在model里訓練的RL效果很差。這一問題直到近幾年才得到解決。

編注:強化學習算法可以分為無模型(model-free)強化學習與有模型(model-based)強化學習,后者中的模型也被稱為世界模型(World model)。在基于世界模型的強化學習方法中,智能體首先學習一個關于環境的內嵌的模型,在內嵌的模型中學習行為決策,從而提高在真實環境中的表現。

聰明的Sutton在很久以前就意識到model不夠準確的問題。在1990年提出Dyna框架的論文 Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming(發表在第一次從workshop變成conference的ICML上),管這個 model 叫 action model,強調預測action執行的結果。RL一邊從真實數據中學習(第3行),一邊從model中學習(第5行),以防model不準確造成策略學不好。

627aebe4-d6b8-11ee-a297-92fbcf53809c.png

62960866-d6b8-11ee-a297-92fbcf53809c.png

論文題目:Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming

論文地址:https://dl.acm.org/doi/10.1145/122344.122377

可以看到,world model對于決策十分重要。如果能獲得準確的world model,那就可以通過在world model中反復試錯,找到現實最優決策

這就是 world model 的核心作用:反事實推理/Counterfactual reasoning, 也就是說,即便對于數據中沒有見過的決策,在world model中都能推理出決策的結果。

了解因果推理的同學會很熟悉反事實推理這個詞,在圖靈獎得主Judea Pearl的科普讀物The book of why中繪制了一副因果階梯:

最下層是“關聯”,也就是今天大部分預測模型主要在做的事;

中間層是“干預”,強化學習中的探索就是典型的干預;

最上層是“反事實”,通過想象回答 what if 問題。

Judea為反事實推理繪制的示意圖,是科學家在大腦中想象,這與Jurgen在論文中用的示意圖異曲同工。

上:Jurgen論文中的世界模型示意圖。下:Judea書中的因果階梯。

到這里我們可以總結,AI研究人員對world model的追求,是試圖超越數據,進行反事實推理,回答what if問題能力的追求。這是一種人類天然具備,而當前的AI還做得很差的能力。一旦產生突破,AI決策能力會大幅提升,實現全自動駕駛等場景應用。

Sora 是不是 world simulator

simulator這個詞更多出現在工程領域,其作用與world model一樣,嘗試那些難以在現實世界實施的高成本高風險試錯。OpenAI似乎希望重新組成一個詞組,但意思不變。

Sora生成的視頻,僅能通過模糊的提示詞引導,而難以進行準確的操控。因此它更多的是視頻工具,而難以作為反事實推理的工具去準確的回答what if問題

甚至難以評價Sora的生成能力有多強,因為完全不清楚demo的視頻與訓練數據的差異有多大。

更讓人失望的是,這些demo呈現出Sora并沒有準確地學到物理規律。已經看到有人指出了Sora生成視頻中不符合物理規律之處。(OpenAI 發布文生視頻模型 Sora,AI 能理解運動中的物理世界,這是世界模型嗎?意味著什么?https://www.zhihu.com/question/644478663/answer/3398992400)

我猜測OpenAI放出這些demo,應該基于非常充足的訓練數據,甚至包括CG生成的數據。然而即便如此那些用幾個變量的方程就能描述的物理規律還是沒有掌握。OpenAI認為Sora證明了一條通往simulators of the physical world的路線,但看起來簡單的堆砌數據并不是通向更高級智能技術的道路

審核編輯:黃飛

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    212

    文章

    29297

    瀏覽量

    210991
  • AI
    AI
    +關注

    關注

    87

    文章

    33628

    瀏覽量

    274368
  • Sora
    +關注

    關注

    0

    文章

    83

    瀏覽量

    407

原文標題:Sora為什么不是世界模型?

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    2.5D封裝為何成為AI芯片的“寵兒”?

    2.5D封裝領域,英特爾的EMIB和臺積電的CoWoS是兩大明星技術。眾所周知,臺積電的CoWoS產能緊缺嚴重制約了AI芯片的發展,這正是英特爾EMIB技術可以彌補的地方。本文我們將以英特爾EMIB為例,深入解析2.5D封裝之所以能成為AI芯片的寵兒的原因。 為何EM
    的頭像 發表于 03-27 18:12 ?187次閱讀
    2.5D封裝<b class='flag-5'>為何</b><b class='flag-5'>成為</b>AI芯片的“寵兒”?

    碳化硅Cascode JFET 為何能成為破局者

    )等半導體材料。雖然硅一直是傳統的選擇,但碳化硅器件憑借其優異的性能與可靠性而越來越受歡迎。相較于硅,碳化硅具備多項技術優勢(圖1),這使其在電動汽車、數據中心,以及直流快充、儲能系統和光伏逆變器等能源基礎設施領域嶄露頭角,成為眾多應用中的新興首選技術。 ? 圖
    的頭像 發表于 02-22 13:55 ?513次閱讀
    碳化硅Cascode JFET <b class='flag-5'>為何能成為</b>破局者

    華為OceanStor A800支持DeepSeek

    在人工智能技術迅猛發展的當下,大模型的低成本與高性能成為各大科技企業競相追逐的焦點。
    的頭像 發表于 02-18 10:09 ?552次閱讀
    華為OceanStor A800支持DeepSeek

    華為、理想、特斯拉、商湯的世界模型是做什么用的

    最近世界模型(World Model)很火,甚至有人說世界模型是終極自動駕駛解決方案,實際上只是端到端大
    的頭像 發表于 01-14 09:27 ?713次閱讀
    華為、理想、特斯拉、商湯的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是做什么用的

    OpenAI暫不推出Sora視頻生成模型API

    OpenAI近日宣布,目前暫無推出其視頻生成模型Sora的應用程序接口(API)的計劃。Sora模型能夠基于文本和圖像生成視頻,引發了廣泛關注。然而,由于訪問量遠超預期,OpenAI此
    的頭像 發表于 12-20 14:23 ?415次閱讀

    成都匯陽投資關于Sora 正式上線,多模態模型的里程碑

    ? 事?件 ?12月10日,OpenAl正式上線?Sora,并向包括美國在內的多數國家用戶開放,用戶可在OpenAI官網上體驗Sora。同時,Sora?被包含在ChatGPT?Plus
    的頭像 發表于 12-16 14:39 ?548次閱讀

    OpenAI推出AI視頻生成模型Sora

    近日,備受期待的OpenAI再次推出了其創新之作——AI視頻生成模型Sora。這一新品的發布,無疑為AI技術注入了新的活力。 據悉,Sora與OpenAI旗下的AI工具DALL-E有著異曲同工之妙
    的頭像 發表于 12-12 09:40 ?547次閱讀

    OpenAI開放Sora視頻生成模型

    OpenAI近日宣布,其傾力打造的人工智能視頻生成系統Sora已正式向美國及其他市場的ChatGPT Plus訂閱用戶開放。自去年首次公開預覽以來,Sora歷經約10個月的精心研發與優化,現已全面
    的頭像 發表于 12-10 11:16 ?565次閱讀

    OpenAI世界最貴大模型:昂貴背后的技術突破

    2023年“雙十二”的第一天,OpenAI推出了其最強推理模型o1的滿血版及其Pro版本。同時,ChatGPT也推出了每月200美元的Pro訂閱計劃,這一價格使其一躍成為世界最貴的大模型
    的頭像 發表于 12-06 14:46 ?887次閱讀

    面對大模型的關鍵躍遷,華為云為什么能成為醫藥健康的同行者

    模型
    腦極體
    發布于 :2024年11月27日 09:46:43

    Sora的功能優勢及用戶評價

    在數字化時代,個人助理軟件已經成為我們日常生活中不可或缺的一部分。Sora,作為一款新興的智能個人助理,以其獨特的功能優勢和卓越的用戶體驗,迅速在市場上占據了一席之地。 一、Sora的功能優勢
    的頭像 發表于 10-31 14:38 ?820次閱讀

    神州數碼亮相2024世界人工智能大會,以生成式AI和智能算力共繪智能未來

    ? 在科技的最前沿,人工智能成為萬千目光匯聚的焦點,它與行業的深度融合,帶來顛覆性的變革與創新。7月4日,2024世界人工智能大會暨人工智能全球治理高級別會議(以下簡稱“WAIC 2024”)開幕
    的頭像 發表于 07-05 14:21 ?519次閱讀
    神州數碼亮相2024<b class='flag-5'>世界</b>人工智能大會,以生成式AI和智能算力共繪智能未來

    Sora還在PPT階段,“中國版Sora”已經開放使用了!

    電子發燒友網報道(文/梁浩斌)今年春節期間,OpenAI的AI文字生成視頻模型Sora驚艷全世界,極高的視頻生成效果、長達60秒的視頻生成長度,讓過去Pika Labs推出的Pika 1.0、去年
    的頭像 發表于 06-17 09:07 ?3856次閱讀

    Sora的最強競爭對手,來自中國

    Diffusion+Transformer架構,Sora借助圖像處理、空間關系、物理規律、因果邏輯等規律與知識,在十幾秒、幾十秒的視頻中完成對現實世界的解構與再造。但沒過多久人們就發現,再多的“哇聲一
    的頭像 發表于 05-13 17:11 ?171次閱讀
    <b class='flag-5'>Sora</b>的最強競爭對手,來自中國

    智譜AI正在研發國產文生視頻模型,對標OpenAI Sora

    國內AI領域的獨角獸企業智譜AI正全力研發一款與OpenAI的Sora相媲美的國產文生視頻模型。據悉,該模型的技術研發已取得顯著進展,預計最快將于今年內正式對外發布。
    的頭像 發表于 05-13 11:14 ?821次閱讀
    主站蜘蛛池模板: 色老头性xxxx老头视频 | 日韩xx00 | 全日本爽视频在线 | 在线观看色视频网站 | 天堂社区在线观看 | 成人亚洲欧美 | 中文字幕在线播放一区 | 国产一卡二卡3卡4卡四卡在线视频 | 五月天天色 | 美女把尿口扒开让男人桶出水 | you ji z z日本人在线观看 | 日日夜夜天天人人 | 毛片色毛片18毛片美女 | 久久综合图片 | 福利片在线观看免费高清 | 亚洲天堂2013 | 夜夜gan| 日韩精品一卡二卡三卡四卡2021 | www激情五月 | 亚洲一级毛片免费在线观看 | 国产精品资源在线观看网站 | 夜夜爽夜夜爽 | 国产一二三区精品 | 天堂网在线观看 | 欧美色视频日本片高清在线观看 | 国产精品久久久久久久久kt | aaaa大片 | 欧美在线一区二区三区 | 啪啪网站色大全免费 | 黄网站色视频免费观看 | 韩国三级中文字幕hd | 麻豆美女大尺度啪啪 | 欧美一级特黄aaaaaa在线看片 | 色多多黄色 | 啪啪黄色片| 日本操穴 | 亚洲天天操 | 国产午夜久久影院 | 在线三区 | 免费大片黄在线观看日本 | videosgratis欧美另类老太 |