圖源:谷歌機器人團隊論文「Interactive Language: Talking to Robots in Real Time」。
UC 伯克利 Dynalang 研究的關鍵思想是,我們可以將語言看作是幫助我們更好地對世界進行預測的工具,比如「我們的牛奶喝完了」→打開冰箱時沒有牛奶;「扳手可以用來擰緊螺母」→使用工具時螺母會旋轉。Dynalang 在一個模型中結合了語言模型(LM)和世界模型(WM),使得這種范式變成多模態。研究者認為,將語言生成和行動統一在一個智能體架構中是未來研究的一個令人興奮的方向。
論文概覽 人工智能長期以來的目標是開發能夠在物理世界中與人類自然交互的智能體。當前的具身智能體可以遵循簡單的低層指令,比如「拿一塊藍色的積木」或者「經過電梯,然后向右轉」。 然而,要實現自由交流的互動智能體,就需要理解人們在「此時此地」之外使用語言的完整方式,包括:傳遞知識,比如「左上角的按鈕是關掉電視的」;提供情境信息,如「我們的牛奶喝完了」;以及協同,比如跟別人說「我已經吸過客廳了」。我們在文本中閱讀的很多內容或者從他人口中聽到的信息都在傳遞有關世界的知識,無論是關于世界如何運行還是關于當前世界狀態的知識。 我們如何使智能體能夠使用多樣化的語言呢?一種訓練基于語言的智能體解決任務的方法是強化學習(RL)。然而,目前的基于語言的 RL 方法主要是學習從特定任務指令生成行動,例如將目標描述「拿起藍色的積木」作為輸入,輸出一系列運動控制。 然而,當考慮到自然語言在現實世界中所服務的多樣功能時,直接將語言映射到最優行動是一個具有挑戰性的學習問題。以「我把碗放好了」為例:如果任務是清洗,智能體應該繼續進行下一個清洗步驟;而如果是晚餐服務,智能體應該去取碗。當語言不涉及任務時,它只與智能體應該采取的最優行動弱相關。將語言映射到行動,尤其是僅使用任務獎勵,對于學會使用多樣化語言輸入完成任務來說是一個弱學習信號。 不同的是,UC 伯克利的研究者提出,智能體使用語言的一種統一方法是幫助它們預測未來。前面提到的語句「我把碗放好了」有助于智能體更好地預測未來的觀察結果(即,如果它采取行動打開櫥柜,它將在那里看到碗)。 我們遇到的很多語言可以通過這種方式與視覺體驗聯系起來。先前的知識,比如「扳手可以用來擰緊螺母」,幫助智能體預測環境變化。諸如「包裹在外面」的陳述有助于智能體預測未來的觀察結果。這個框架還將標準指令遵循歸入預測范疇:指令幫助智能體預測自己將如何受到獎勵。類似于下一個 token 預測允許語言模型形成關于世界知識的內部表示,研究者假設預測未來的表示為智能體理解語言以及它與世界的關系提供了豐富的學習信號。





Correction:提供了基于智能體當前行為的交互式反饋,比如「轉身」。









原文標題:用語言建模世界:UC伯克利多模態世界模型利用語言預測未來
文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。
-
物聯網
+關注
關注
2926文章
45754瀏覽量
386748
原文標題:用語言建模世界:UC伯克利多模態世界模型利用語言預測未來
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
Matter 智能家居的通用語言
商湯“日日新”融合大模型登頂大語言與多模態雙榜單
FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預測......
大語言模型開發語言是什么
一文理解多模態大語言模型——上

【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習
【《大語言模型應用指南》閱讀體驗】+ 俯瞰全書
基于神經網絡的語言模型有哪些
大語言模型(LLM)快速理解

評論