人類每天都在進行高層次的規劃來指導自己的各種活動,但對于機器人來說這并不容易。幸運的是,越來越多的工作表明,層級抽象(即視覺運動子程序)可以提高強化學習中的樣本效率,這是一種人工智能訓練技術,它利用獎勵來推動智能體實現目標。
傳統上,這些層次結構必須通過端到端訓練進行手動編程或者獲取,這需要大量的時間、持續的注意力和足夠的耐心。但是在 Arxiv.org 上新發布的論文「通過觀看視頻學習導航子程序」中,FacebookAI Research、加州大學伯克利分校和伊利諾伊大學厄巴納 - 香檳分校的科學家描述了一個通過使用逆機器學習模型攝取視頻“偽標記”來學習層次結構。
這讓人想起去年 Facebook 開源的一對模型Talk the Walk。該模型可以使用 360 度圖像、自然語言以及具有標志性地標(如銀行、餐廳等)的地圖來指導紐約市的街道,能夠在不知道用戶位置的情況下提供步行路線。
早上來杯咖啡成為很多都市白領每天必不可少的“自我喚醒”環節。坐在辦公室的人類如果想去茶水間倒杯咖啡,你會從門廳走到底,拐向左邊的走廊,然后再進入右邊的房間。當人類在做這一系列思考與動作的時候,我們不是決定具體需要調動哪塊肌肉,而是通過組合這些可重復使用的低級視覺運動子程序來達到目標,從而達成更高抽象水平的規劃。
研究人員表示,這些視覺運動子程序,使規劃能夠減輕傳統規劃中的高計算成本和強化學習中的高樣本復雜性等已知問題。
Facebook的系統包含兩個階段。第一階段,研究人員通過運行訓練模型,使用隨機勘探數據的自我監督來生成偽標簽。模型學習了分布在四個不同環境中的1500個位置點,然后隨機執行30個步驟的動作,產生45,000個交互樣本。
在第二階段,大約217,000個偽標記視頻被切成220萬個互相獨立的剪輯片段然后被輸入一個模型,這個模型預測參考視頻中采取的相應動作的模型,而一個單獨的網絡檢查參考視頻中的動作序列并將行為編碼為矢量(例如數學表示)。另一個模型通過預測來自第一幀的軌跡的推斷編碼,針對任何給定視頻幀選擇調用哪些學習子例程。
在一個實驗中,機器人被部署在真實的辦公環境中。研究表明,學習視頻(比如如何最有效的方式前往目標位置)能夠讓機器人的表現比用純交互方法學習達到更好的效果,至少能夠顧及到以前看不見的環境。
也許最令人印象深刻的是,這個訓練有素的模型學會了有利于前進導航并避免障礙物,導航任務比曾經的最佳基準快4倍,這使得它能夠完全自主地進行長距離行進。
-
AI
+關注
關注
87文章
31711瀏覽量
270508 -
Facebook
+關注
關注
3文章
1431瀏覽量
55029
原文標題:如何在辦公室不動聲色地繞過老板視線?Facebook的AI通過看視頻自學成才
文章出處:【微信號:thejiangmen,微信公眾號:將門創投】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
ShiMetaOS | 怎樣通過AI主機盒+網絡攝像頭IPC快速構建視頻結構化分析方案
![ShiMetaOS | 怎樣<b class='flag-5'>通過</b><b class='flag-5'>AI</b>主機盒+網絡攝像頭IPC快速構建<b class='flag-5'>視頻</b>結構化分析方案](https://file1.elecfans.com/web3/M00/01/EE/wKgZO2dZYZOAHlAFAAA6QgnPEOQ112.png)
Luma AI Ray 2視頻模型即將發布
OpenAI推出AI視頻生成模型Sora
可靈AI全球首發視頻模型定制功能,助力AI視頻創作
Meta發布新AI模型自學評估器,探索減少人類參與度
GENERATION最新研究揭示了中老年員工如何在工作場所體驗人工智能
【AIBOX快速入門】2步玩轉AI對話
![【AIBOX快速入門】2步玩轉<b class='flag-5'>AI</b>對話](https://file.elecfans.com/web2/M00/10/E9/pYYBAGEfInyAb9dQAABH4pzjonI981.jpg)
評論