動物學習使用工具的技能大多來自觀察學習和實踐。例如通過觀察,黑猩猩學會了用樹枝“捕捉”昆蟲,卷尾猴會用棍子將食物掃到身邊。雖然我們不知道它們是否只是“機械模仿”,但我們相信這種使用工具的能力代表著一種更高水平的智力。
大猩猩用木棍收集草藥
一個值得探討的問題:我們能否讓機器人以同樣的方式——觀察和實踐 ——學會使用工具?
執行這種復雜的多對象操作任務(例如涉及工具使用的任務)的前提是理解物體間的物理因果關系,也就是要能夠預測一個物體如何與另一個物體相互作用的。我們在之前的視覺模型強化學習的研究中探究過機器人在沒有監測的情況下怎樣利用因果視覺預測模型與周圍環境互動。學習這樣的模型之后,機器人可以完成各種簡單的任務,包括折疊衣物和擺放物體。但是,如果我們考慮有更多工具的情況,例如用掃帚將污垢掃入簸箕,這種學習模型是不夠的。
利用因果視覺預測模型與周圍環境互動
https://bair.berkeley.edu/blog/2018/11/30/visual-rl/
因此,我們從動物的學習方式中汲取靈感,設計了一種算法,使機器人可以通過模仿和互動式學習獲得工具使用技能。尤其是我們的設計還可以通過混合示范數據和無監督學習,使機器人在沒有已知工具的情況下,可以使用其他新物體作為臨時工具。此外,根據設計的需要,我們的機器人還可以自行決定是否使用被提供的工具。在這篇文章中,我將解釋其中原理。
我們的設計使機器人明白如何使用不同的物體作為工具來實現指定的任務(根據黃色箭頭標記)。機器人在執行任務期間自行決定是否使用已提供的工具。
從示范中學習
首先,我們用示范數據集來說明如何使用各種工具。因為我們最終希望機器人學習一種對各種工具使用技能都有用的模型,所以我們收集了使用不同工具完成各種任務的示范數據。對于每次示范,我們都會用機器人自帶攝像頭記錄圖像序列,包括工具的位置和各種指令的動作。
運動示范例子
通過這些數據,我們可以擬合一個模型,設計一系列動作,使機器人能夠將當前場景中的物體用作工具。并且,為了得到示范中各種動作的范圍,該動作設計模型輸出了動作序列的分布。
視覺預測模型的無監督數據集
由于我們希望機器人不只是機械模仿示范的行為,而是能夠應對新物體和新情況,因此我們需要大量不同的數據。也就是說,機器人可以自主收集數據。例如,我們希望機器人能夠理解小失誤,有偏差的抓取可能會影響其下一步動作。因此,我們要讓機器人通過自己收集的數據來累積經驗。
機器人還可以兩種不同的方式自主收集數據:通過隨機的動作序列收集數據或者通過之前強化學習模型輸入的動作樣本收集數據。后者使機器人可以抓住工具并隨意移動它們,這對于理解多物體相互作用至關重要。
我們最終的數據集包括專業示范數據,機器人對各種工具的自學經驗以及BAIR機器人交互數據。我們用這個數據集來訓練機器人的動態模型。該模型使用循環卷積神經網絡,輸入先前收集的圖像和每個時間點的動作,就可以生成下一個圖像預測以作出反應。
示范指導動作
在測試時,機器人可以使用模擬數據訓練的模型來指導動作計劃過程和預測模型,以確定采取哪些動作可以完成它要執行的任務。
新任務是通過用戶提供的物體移動關鍵點位置來指定的。例如,我們想要機器人把垃圾掃進簸箕,就可以選擇垃圾的中心點和垃圾在簸箕上的最終位置來確定任務(見下圖)。用這種方式指定任務不會告訴機器人如何使用某工具,甚至不會告訴它在這個場景下有哪種工具可以使用,機器人必須在其動作規劃過程中自行確定。
我們使用基于抽樣的動作計劃程序,利用動作設計和視頻預測模型,使機器人可以使用不同的工具和物體來完成各種任務。需要指出的是,動作序列最初是來自動作設計模型的隨機采樣。然后,我們再通過視頻預測模型來預測每個動作計劃的結果。
對同一初始場景不同動作序列的視頻預測
通過采用頂層計劃(最有可能導致期望結果的動作序列)并使其合理分布,我們可以重復采樣并改進最頂層計劃,然后讓機器人執行。
實踐
我們嘗試此方法使機器人能夠使用新工具來完成用戶指定的任務。
左:帶有任務指示箭頭的初始場景。中:與最佳計劃相對應的視頻預測。右:機器人執行計劃。
在前文提到的任務中,機器人使用附近的掃把來更有效地執行任務:
盡管機器人之前從未見過海綿,但它可以自學如何使用它來清潔盤子上的碎屑:
在下面的示例中,機器人只能在綠色陰影區域內移動,并且需要將藍色圓柱體向自己方向拉。這個示例的關鍵是,機器人學會如何使用L形鉤來完成任務:
而且,即使出現諸如瓶子一類的普通物體時,機器人也可以推斷出如何將其用作工具來完成任務:
最后,在可以不使用工具的情況下,機器人選擇用自己的鉗子完成任務:
場景1:機器人使用工具從而更有效地移動兩個對象。
場景2:機器人忽略鉤型工具,用自己的鉗子移動單個物體。
除了這些例子之外,我們在論文中的定量結果表明,我們的方法比只從示范中學習更通用,比只從經驗中學習更能提高機器人的能力。
其他相關研究
先前的深度學習研究探索了在指定任務和運動計劃框架下使用邏輯編程和已知模型的如何讓機器人操作工具。但是,基于邏輯和基于分析模型的系統容易受到建模錯誤的影響,這些錯誤可能會在測試執行期間累積,從而影響整個系統。
其他研究包括將工具的使用分解為面向任務的學習,及使用計劃或策略學習來操作工具等。這些方法將機器人的運動范圍限制在工具附近的區域內,而我們的方法能夠應對周圍有工具或沒有工具的不同情況。
還有一些研究還提出了工具使用的動態學習模型。然而,不同于這些使用手工設計的感知通道或完全放棄感知的方法,我們的方法可以直接從原始圖像像素中學習物體之間的交互作用。
結論
執行涉及未知物體的多樣化復雜任務是機器人技術中的一項挑戰,我們研究學習了將物體作為工具來使用的不同任務。我們演示了我們的方法,它結合了模仿和自我監督的交互學習,使機器人能夠用多個物體完成復雜的任務,甚至可以在新場景下使用臨時工具。我們希望這項研究代表著機器人向更通用和更強大邁出的一步,這樣它們終有一天可以在現實環境下執行任務。
-
機器人
+關注
關注
211文章
28789瀏覽量
209047 -
數據集
+關注
關注
4文章
1212瀏覽量
24896 -
強化學習
+關注
關注
4文章
268瀏覽量
11323
原文標題:伯克利BAIR最新研究:讓機器人自己學會使用工具
文章出處:【微信號:BigDataDigest,微信公眾號:大數據文摘】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論