這篇文章是“NVIDIA 機器人研究與開發摘要 (R2D2) ”的一部分,旨在讓開發者更深入地了解 NVIDIA 研究中心在物理 AI 和機器人應用方面的最新突破。
如今,機械臂被廣泛應用于裝配、包裝、檢測等眾多領域。然而,它們仍需預先編程才能執行特定且往往是重復性的任務。為了滿足在大多數環境中對適應性日益增長的需求,需要具備感知能力的機械臂,以便根據實時數據做出決策并調整行為。這不僅能讓機械臂在協作環境中執行各類任務時更加靈活,還能通過對危險的感知來提升安全性。
本期的“NVIDIA 機器人研究與開發摘要 (R2D2) ”探討了 NVIDIA 研究中心和機器人靈巧操作、物體操控和抓取有關的工作流以及 AI 模型(相關成果如下文),以及它們如何應對機器人面臨的關鍵挑戰,如適應性和數據稀缺問題:
DextrAH-RGB:一種基于立體 RGB 輸入實現靈巧抓取的工作流。
DexMimicGen:一種利用模仿學習 (IL) 進行雙手靈巧操控的數據生成流程,在 2025 年 IEEE 國際機器人與自動化會議 (ICRA) 上展示。
GraspGen:一個包含超過 5700 萬個針對不同機器人和夾具的抓取數據的合成數據集。
什么是靈巧機器人?
靈巧機器人能夠精確、靈活且高效地操控物體。機器人的靈巧性涉及精細的運動控制、協調能力,以及在非結構化環境中處理各種任務的能力。機器人靈巧性的關鍵方面包括抓握、操控、觸覺敏感度、敏捷性和協調性。
機器人的靈巧性在制造業、醫療健康和物流等行業中至關重要,它使那些傳統上需要人類精準操作的任務實現自動化成為可能。
NVIDIA 的機器人靈巧操作
工作流及模型
靈巧抓取是機器人技術中的一項具有挑戰性的任務,要求機器人能夠精確且快速地操控各種各樣的物體。傳統方法在處理反光物體時往往存在困難,并且難以很好地推廣應用到新的物體或動態環境中。
NVIDIA 研究中心通過開發端到端的基礎模型和工作流來應對這些挑戰,這些模型和工作流能夠讓機器人在不同物體和環境中實現穩定可靠的操控。
用于靈巧抓取的 DextrAH-RGB
DextrAH-RGB 是一種基于立體 RGB 輸入,實現機械臂手部靈巧抓取的工作流。利用這一工作流,相關策略完全在仿真環境中進行訓練,并且在實際部署時能夠應用于各種新的物體。DextrAH-RGB 借助NVIDIA Isaac Lab,在仿真環境中針對不同物體進行了大規模訓練。
訓練過程分為兩個階段。首先,運用強化學習 (RL) 在仿真環境中訓練一個教師策略。教師策略是一種特殊的織物引導策略 (FGP),它在幾何織物動作空間內發揮作用。幾何織物是一種矢量化的底層控制方式,將運動轉化為關節位置、速度和加速度信號,并以命令的形式傳輸給機器人的控制器。通過嵌入避障和目標達成行為,這種方式在部署時確保了安全性和響應速度,從而實現快速迭代。
教師策略有一個長短期記憶 (LSTM) 層,能夠對現實世界的物理特性進行推理和適應。這有助于融入諸如重新抓取和理解抓取成功與否等糾正行為,以應對當前的動態情況。訓練的第一階段通過利用領域隨機化來確保策略穩定健性和適應性。在訓練教師策略時,會改變物理、視覺和干擾參數,逐步增加環境的難度。
在訓練的第二階段,使用逼真的平鋪渲染技術,將教師策略提煉為仿真環境中基于 RGB 的學生策略。這一步使用了一個名為 DAgger 的模仿學習框架。學生策略通過立體相機接收 RGB 圖像,從而能夠間接地推斷出物體的深度和位置。
圖 1. DextrAH-RGB 訓練流程
波士頓動力 Atlas MTS 機器人
實現從仿真到現實的應用
NVIDIA 與波士頓動力合作,對 DextrAH-RGB 進行訓練和部署。圖 2 和視頻 2 展示了一個由通用策略驅動的機器人系統,該系統在 Atlas 機器人的上半身成功部署了強大的、具備零樣本從仿真到現實抓取能力的策略。
圖 2. 使用 Isaac Lab 大規模訓練 Atlas 機器人的教師策略
該系統展示了由 Atlas 機器人的三指夾具驅動的多種抓取方式,這些夾具能夠抓取輕物和重物,并顯示出逐漸形成的故障檢測和重試行為。
視頻 2. 波士頓動力 Atlas MTS 機器人
使用 DextrAH-RGB 成功抓取工業物體
用于雙手操控數據生成的
DexMimicGen
DexMimicGen 是一種用于雙手操控數據生成的工作流,它使用少量的人類演示來生成大規模的軌跡數據集。其目的是通過讓機器人在仿真環境中學習動作(這些動作可以遷移到現實世界中),來減少手動數據收集這一繁瑣的任務。這個工作流解決了人形機器人在雙手靈巧操作的模仿學習中數據稀缺的挑戰。
DexMimicGen 使用基于仿真的增強技術來生成數據集。首先,人類演示者使用遠程操作設備收集少量演示數據。然后,DexMimicGen 在仿真環境中生成大量的演示軌跡數據集。例如,在最初發布時,借助 DexMimicGen,研究人員僅從 60 個人類演示中就生成了 21000 個演示數據。最后,使用模仿學習在生成的數據集上訓練一個策略,以執行操控任務,并將其部署到真實的機器人上。
圖 3. DexMimicGen 工作流
雙手操控具有挑戰性,因為在不同任務中需要兩只手臂之間進行精確的協調。比如兩只手分別抓取不同物體這樣的并行任務,需要獨立的控制策略。再比如抬起一個大物體這樣的協調任務,需要兩只手臂同步動作和時間。順序任務則要求子任務按照一定的順序完成,比如用一只手移動一個盒子,然后用另一只手把一個物體放進去。
DexMimicGen 在數據生成過程中考慮到了這些不同的要求,采用了一種 “并行、協調和順序” 的子任務分類法。對于獨立的手臂子任務,使用異步執行策略;對于協調任務,使用同步機制;對于順序子任務,使用順序約束。這種方法確保了在數據生成過程中精確的對齊和邏輯的任務執行。
圖 4. 使用基于 DexMimicGen 生成的
數據訓練的模型成功對罐頭進行分類
當在真實世界中部署時,借助 DexMimicGen 的“現實—仿真—現實”數據生成流程生成的數據,人形機器人在進行罐頭分類任務時,實現了 90% 的成功率。相比之下,僅使用人類演示數據進行訓練時,模型的成功率為 0%。這些結果充分表明,DexMimicGen 在減少人力投入的同時,能夠讓機器人更有效地學習復雜的操控任務。
適用于多種機器人和夾具的
GraspGen 數據集
為了支持相關研究,GraspGen 在 Hugging Face 平臺上提供了一個全新的仿真數據集,其中包含針對三種不同夾具的 5700 萬個抓取數據。該數據集涵蓋了不同物體網格的 6D 夾具變換數據以及抓取成功的標簽。
圖 5. 數據集中一系列不同物體的建議抓取方式
這三種夾具分別是 Franka Panda 夾具、Robotiq 2F-140 工業夾具和單觸點吸盤夾具。GraspGen 數據集完全是在仿真環境中生成的,展示了自動數據生成在擴大數據集規模和多樣性方面的優勢。
圖 6. GraspGen 仿真數據集中三種夾具的坐標系約定:Robotiq 2F-140 夾具(左)、單觸點吸盤夾具(中)和 Franka Panda 夾具(右)
總結
為了滿足在大多數環境中對適應性日益增長的需求,需要機械臂能夠根據實時數據做出決策并調整行為。本文探討了幾種機器人靈巧操作、操控和抓取工作流以及 AI 模型,以及它們如何應對機器人面臨的關鍵挑戰,如適應性和數據稀缺問題。
-
機器人
+關注
關注
212文章
29312瀏覽量
211018 -
NVIDIA
+關注
關注
14文章
5196瀏覽量
105525 -
AI
+關注
關注
87文章
33701瀏覽量
274437 -
機械臂
+關注
關注
13文章
541瀏覽量
25158
原文標題:R2D2:借助 NVIDIA 研究中心的工作流和模型,讓靈巧機器人更加適應環境
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論