人類每天都在進行不同層次的規劃活動,比如說每天早上起床以后,你習慣性走到廚房喝一杯咖啡:你會先走下走廊,左轉進入過道,然后進入右邊的房間。
對于這些習慣成自然的流程,你無需思考,不會刻意去想你要使用哪一個肢體動作。但對于機器人而言,這并非易事。
Facebook剛剛發布了主導研究的新系統,讓機器人也可以通過觀看視頻,拆解動作,并學習如何組合這些動作形成自己的規劃。
層級抽象結構(hierarchal abstractions)
已經有越來越多的研究表明,層級抽象結構(即視覺運動子程序)可以提高強化學習中的采樣效率,這是一種利用獎勵驅動智能體達到目標的AI訓練技術。
在過去,這些層次結構必須通過端到端的訓練來手動編碼或獲取,而這需要大量的時間、注意力和長久的耐心。
Facebook這次的新研究提出,刻意讓機器人通過觀看視頻學習導航,描述一個通過用逆向機器學習模型攝取視頻偽標簽(在本文中,偽標簽指智能體想象的行為),從而學習層次結構的系統。
論文作者分別來自Facebook AI研究室,加州大學伯克利分校和伊利諾伊大學厄巴納—香檳分校。
這讓人想起去年Facebook開源的一組模型——Talk the Walk。它只需要360°的全景圖像、自然語言以及一張有當地地標(比如銀行和餐館)的地圖就可以通過問路,實現在整個紐約市的街道導航。
具體實現方式
機器人通過觀看這些視頻,研究這些簡單的視覺運動子程序是如何組合以達到高級的抽象層次,這些視覺運動子程序能夠解決一些已知問題,即經典的規劃中的高計算成本和強化學習中的樣本復雜性的問題。
研究者提出的系統分為兩個階段,在第一階段,研究人員通過運行在隨機探索數據上自我監督的智能體模型生成偽標簽。模型從分布在四個環境中的1500個不同位置學習,在不同的位置隨機執行30個不同步驟的動作,從而產生45,000個交互樣本。
在系統的第二階段,大約217,000個偽標記視頻被剪輯成220萬個單獨的小視頻,再將其輸入預測參考視頻中相應動作的模型,同時再通過一個單獨的網絡檢查參考視頻中的動作序列,并編碼其行為作為向量。另一個模型通過推斷第一幀的軌跡的編碼,來預測哪一個子程序可以調用給已有的視頻幀。
交互樣本從1000萬減少到4.5萬
在一個部署在辦公環境的真實世界中的機器人實驗中,研究人員表明,相比單純交互的方法,至少應用在之前從未見過的環境上,通過觀看視頻來學習技能(這里指采用最高效的方式前往目標位置)的方式能達到更好的效果。
最令人印象深刻的是,訓練有素的模型學會了自主地前進導航并避開障礙物,比通過單純交互方式要快4倍,這使得機器人能夠做到完全自主地長距離行進。
“特別引人注目的是,這些模型從總計45,000次的環境交互中學習,”研究人員寫道,“從第一視角的視頻中成功學習,使得智能體能夠執行連貫的軌跡,即使它只執行過隨機動作。此外,它優于最先進的技能學習技術,該技術需要更大量的訓練樣本,大致1000萬個。”
-
機器人
+關注
關注
212文章
29421瀏覽量
211309 -
Facebook
+關注
關注
3文章
1432瀏覽量
56129
原文標題:Facebook讓機器人“觀看”上萬次視頻后,TA學會了自主繞道走路
文章出處:【微信號:BigDataDigest,微信公眾號:大數據文摘】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
【「# ROS 2智能機器人開發實踐」閱讀體驗】+ROS2應用案例
【「# ROS 2智能機器人開發實踐」閱讀體驗】+內容初識
構建人形機器人學習的合成運動生成流程

深度解讀英偉達Newton機器人平臺:技術革新與跨界生態構建

機器人Blue亮相 搭載英偉達最新GR00T N1人形機器人通用基礎模型

AgiBot World Colosseo:構建通用機器人智能的規模化數據平臺

研華科技加速智能自主系統與機器人應用發展
構建人形機器人學習的合成運動生成管線

評論