電子發燒友網報道(文/吳子鵬)在具身智能領域,人形機器人無疑是最值得期待的產品類別,有著更高的市場熱度和更大的發展潛力。新戰略人形機器人產業研究所的統計數據顯示,截至 2025 年 4 月,全球人形機器人本體企業數量已超 300 家,中國企業數量占半壁江山。
隨著全球范圍內越來越多企業涌入人形機器人賽道,市場預期持續攀升。根據高工機器人產業研究所(GGII)近期發布的《2025 年人形機器人產業發展藍皮書》,2025 年全球人形機器人市場銷量有望達 1.24 萬臺,市場規模 63.39 億元;2030 年銷量將接近 34 萬臺,市場規模超 640 億元;2035 年銷量將突破 500 萬臺,市場規模超 4000 億元。
數據來源:《2025 年人形機器人產業發展藍皮書》,電子發燒友網制圖
然而,要釋放人形機器人的市場潛力,研發企業仍需攻克諸多挑戰。尤其在數據與模型能力層面,人形機器人設計面臨多維度技術瓶頸,既涉及底層感知決策的精度問題,也關乎復雜物理系統與智能算法的協同效率。對于通用人形機器人而言,更需基于有限數據構建接近甚至超越人類的通用模型,多任務耦合、物理約束與場景泛化等挑戰尤為突出。
在應對上述挑戰的探索中,NVIDIA 發布的開源人形機器人基礎模型 Isaac GR00T N1 提供了高效解決方案。其在雙系統架構、合成數據生成、仿真訓練等方面的創新,大幅降低了通用人形機器人的開發門檻,標志著該領域進入全新發展階段。
數據多樣性與場景泛化的雙重桎梏
人形機器人產業有一句被廣泛認同的發展定律 ——“得數據者得天下”。這是因為人形機器人的智能化依賴 AI 大模型,而大模型的能力提升高度依賴數據規模與質量。從這個角度看,數據堪稱人形機器人的 “靈魂”,但當前產業正面臨數據匱乏的痛點。
首先,數據采集場景復雜。通用人形機器人需適應家庭、工業、戶外等多元場景,不同場景的光照、地形、物體分布差異顯著,采集全場景數據需耗費大量時間與資源。現階段,多數機器人數據僅來源于實驗室環境下的簡單動作(如行走、抓取),缺乏工廠物料分揀、老人居家護理等復雜動態場景的實時交互數據。
其次,多模態數據采集門檻高。人形機器人需融合視覺、聽覺、觸覺等多模態數據感知環境,這要求多種傳感器同步工作并保證時序一致性,技術難度極大。與整機構建不同,數據采集階段需依賴多模態感知系統保障質量,醫療場景更需柔性傳感器,進一步制約了數據池擴展。
第三,數據標注難度與工作量雙高。標注人形機器人數據需掌握運動學、動力學及場景專業知識(如標注行走姿態需關節角度、運動軌跡等知識),標注人員需經專業培訓。此外,數據量龐大且關聯復雜,需標注動作、姿態及環境交互信息,導致標注工作量呈指數級增長。
最后,數據孤島與標準缺失問題突出。企業將數據視為核心競爭力,擔心共享導致技術泄露,形成 “數據孤島”;同時,不同機構的數據采集設備、方法與格式缺乏統一標準,即便倡導開源,數據融合仍困難重重。
數據匱乏直接制約 AI 大模型性能提升。如上所述,通用人形機器人需覆蓋家庭、辦公、戶外等復雜場景,小規模數據難以捕捉場景多樣性,導致模型無法學習足夠模式,在新場景中表現欠佳。為保證安全性,開發人員不得不為機器人添加大量物理約束,將規范嵌入控制系統,但這反而限制了場景泛化能力。
比數據缺乏更嚴峻的是數據質量問題:錯誤標注、缺失值或偏差會使模型學習錯誤模式,導致機器人決策失誤。例如,在養老護理場景里,訓練物體識別時,錯誤標注可能導致機器人拿錯藥物,引發嚴重后果。
為破解數據困局,機器人行業嘗試引入動作捕捉技術 —— 通過高精度傳感器采集人類關節軌跡、肌肉發力模式,將人類動作轉化為機器人控制指令。這一技術試圖打通人類運動經驗與機器人控制的壁壘,但仍存在局限:高精度動捕系統需在特定場地部署大量設備,成本高昂;視覺動捕易受光照與遮擋干擾,慣性動作捕捉可能受電磁干擾漂移;若 AI 模型基礎能力不足,示教動作可能引入誤差,限制復雜環境應用。
GR00T N1為人形機器人帶來通用技能和推理
GTC 2025期間,NVIDIA 推出一系列全新技術,助力人形機器人開發,其中包括全球首個開源且完全可定制的基礎模型 NVIDIA Isaac GR00T N1。NVIDIA 創始人兼 CEO 黃仁勛表示,“借助 NVIDIA Isaac GR00T N1 以及新的數據生成和機器人學習框架,全球機器人開發者將開啟 AI 時代的全新篇章。”
GR00T N1是NVIDIA Isaac GR00T平臺推出的首個用于通用人形機器人推理和技能的可完全定制模型,其擁有兩大突出的優勢:GR00T N1基于龐大的人形數據集訓練而來,且創新性地采用了雙系統架構,可幫助解決當前通用人形機器人開發遇到的挑戰,保證了通用人形機器人性能的“基本盤”。
GR00T N1的訓練數據既包含了真實獲取的數據,也有使用 NVIDIA Isaac GR00T Blueprint 組件生成的合成數據,以及互聯網級視頻數據。其中,用于合成運動生成的 NVIDIA Isaac GR00T Blueprint 是基于 NVIDIA Omniverse 和 NVIDIA Cosmos 構建的參考工作流,它可以從少量的人類演示中創建大量的合成運動軌跡,用于機器人操作。列一組簡單的數據對比,GR00T Blueprint能夠在11 小時內生成 780,000 個合成軌跡,相當于 6,500 小時或連續九個月的人類演示數據。同時,GR00T Blueprint生成的數據還能夠和真實世界數據結合,進一步提升了數據的質量和規模。
GR00T Blueprint工作流,圖源:NVIDIA
如此吸引人的訓練數據集該如何獲取呢?NVIDIA也回應了人形機器人開發人員關切的問題。GTC 2025上,該公司發布了大型開源數據集,助力構建下一代物理 AI。初始數據集包含15 TB 數據,有超過 320,000 條機器人訓練軌跡,以及包含 SimReady 資源集合在內的高達 1,000 個通用場景描述(OpenUSD)資源,開發人員可通過 Hugging Face 平臺下載。從數據規模來看,已發布的 GR00T N1 數據集是更大的開源物理 AI 數據集的一部分。事實上,這些高質量數據不僅可用于預訓練,也可用于后訓練,以對AI模型進行調優。
發展至今,GR00T N1背后的數據集和數據合成方法已經不只是一個解決方案,而是一種適用于自主機器人或自動駕駛的數據生態。一方面,人形機器人公司、自動駕駛方案商和領先的科研機構在積極使用這些數據;另一方面這些機構和單位也在基于此構建新的數據和方法論。比如,智元機器人利用 GR00T-Teleop 打造了更加高效易用的仿真遙操作方法,GR00T-Teleop 是NVIDIA Project GR00T 的核心模塊之一,支持基于 Apple Vision Pro 的遠程操作。因此,用戶可以通過佩戴 VR 設備,利用手柄實時控制 Isaac Sim 中智元 AgiBot G1 機器人的手臂、腰部和底盤運動,然后再借助GR00T-Mimic,實現少量示教到海量數據的泛化,實現數據采集規模的指數級上升。這一方法,以及與之類似的方法實際上也解決了我們上述提到的動作捕捉技術的痛點和難點,以少量的人類示范就可以構建大量人形機器人動作的“金標準”。
Genie Sim 基于 GR00T-Teleop 的仿真遠程操作架構,圖源:NVIDIA
除了龐大的數據支撐,GR00T N1模型還采用了雙系統架構,以提供類似人類大腦的認知模式。如下圖所示,系統 2是一個視覺-語言模型,基于 NVIDIA-Eagle 和 SmolLM-1.7B,是一個方法論思考系統,通過視覺和語言指令解釋環境,使機器人能夠對其環境和指令進行推理,并規劃正確的行動;系統1是擴散 Transformer,這個動作模型生成連續動作以控制機器人的運動,將系統 2 制定的動作計劃轉化為精確、連續的機器人運動,如在倉庫場景中,系統1能規劃自主導航路徑并完成多步驟貨物分揀。
GR00T N1模型的雙系統架構,圖源:NVIDIA
因此,GR00T N1模型能夠讓通用人形機器人開發人員從一開始就不必受到數據規模和場景泛化的牽絆,它可以輕松適應和應對各種通用任務,比如單手或雙手抓取、移動物體,或者是將物品從一只手臂轉移到另一只手臂,當然它也能夠勝任需要較長背景和常規技能組合的多步驟任務,比較典型的場景是物料的搬運和檢查。
針對特定場景,開發人員還可以使用真實數據或合成數據對GR00T N1模型進行后訓練,進一步提升人形機器人的場景適應性;針對復雜任務,開發人員也可以通過開源物理引擎 Newton提升人形機器人精度以處理復雜任務。該引擎基于 NVIDIA Warp 框架構建,針對機器人學習進行優化,并與 Google DeepMind MuJoCo 和 NVIDIA Isaac Lab 等仿真框架兼容。
正如1X Technologies 首席執行官 Bernt B?rnich 所言,“人形機器人的未來開發重點在于適應能力和學習能力。”GR00T N1模型的出現精準契合行業發展的大趨勢,通過高效、高質量的數據集、預訓練、后訓練和推理,GR00T N1模型讓人形機器人研發全面換擋提速。當前,優先使用 GR00T N1 的領先機器人公司包括1X Technologies、Agility Robotics、波士頓動力、Mentee Robotics 和 NEURA Robotics等。
Blackwell 架構為智能體提供強勁動能
如上所述,GR00T N1是NVIDIA 一系列可完全定制模型中的首個模型,也是GR00T平臺更新的重要成果。除了基礎模型和數據流水線,NVIDIA Jetson為人形機器人模型部署提供可擴展且性能強大的計算平臺。
GR00T工作流程圖,圖源:NVIDIA
NVIDIA Jetson平臺已有多款針對機器人部署的芯片方案。例如,Jetson Orin系列為不同規格的人形機器人模型提供 7 個具有相同架構的模組,包括Jetson AGX Orin、Jetson Orin NX和Jetson Orin Nano等,最高可提供每秒高達 275 萬億次運算 (TOPS) 的算力,性能是上一代多模態 AI 推理的 8 倍,可支持訓練好的人形機器人模型進行快速推理。
更讓人形機器人開發者興奮的是最新的Jetson Thor系列,其是NVIDIA專為人形機器人設計的計算平臺。Jetson Thor集成高性能CPU、高算力內核、功能安全模塊和100 GB以太網帶寬,使人形機器人能夠運行復雜的多模態 AI 模型,高效處理實時的多模態傳感器數據并支持復雜處理任務,是下一代通用人形機器人部署的理想平臺。此前,NVIDIA 機器人與邊緣計算副總裁Deepu Talla透露,Jetson Thor平臺計算性能可達到1050 TOPS。
Jetson Thor計算平臺的出色性能源于背后的NVIDIA Blackwell 架構的強大支持,該架構為生成式 AI 和加速計算帶來突破性進步。基于Blackwell 架構的GPU具有 2080 億個晶體管,采用專門定制的臺積電 4NP 工藝制造。所有 NVIDIA Blackwell 產品均采用雙倍光刻極限尺寸的裸片,通過 10 TB/s 的片間互聯技術連接成一塊統一的 GPU。
除了計算性能的提升,Blackwell 架構還有非常多的優化,能夠提升基于該架構的計算芯片在人形機器人市場的表現。比如,Blackwell 架構搭載第二代 Transformer 引擎,該引擎將定制的 NVIDIA Blackwell Tensor Core 技術與 NVIDIA TensorRT-LLM 和 NeMo 框架的創新進行結合,加速大語言模型 (LLM) 和多專家模型 (MoE) 的推理和訓練。GR00T N1數據集和模型等一系列新的方案發布之后,全球通用人形機器人在預訓練、后訓練和部署推理方面的芯片需求將顯著提升,而這些任務對算力芯片的算力精度和算力規模有著不一樣的要求,Blackwell Tensor Core 新增了由社區定義的新型微縮放格式作為新的精度選項,這一改進不僅提升了計算的準確性,還可在必要時輕松切換至更高的精度級別,這種能力保障了人形機器人的訓練和推理。
對于第二代 Transformer 引擎,還有一點對于人形機器人是非常重要的,那就是微張量縮放的細粒度縮放技術。這項技術可以優化性能和準確性,從而實現 4 位浮點 (FP4) AI。這一技術在保持高精度不變的同時,將內存能夠支持的下一代模型的性能和規模均提升了 1 倍。這使得人形機器人能夠實時處理視覺識別、自然語言交互、力控反饋等多維度數據,決策能力顯著提升。同時,通過 FP4 精度和硬件級解壓縮引擎,Blackwell架構可以降低人形機器人推理的功耗。通用人形機器人主要依賴電池供電,有限的身體空間導致電池容量無法像汽車一樣擴大,因此能效是非常重要的指標。
此外,Blackwell 內置 NVIDIA 機密計算技術,可通過基于硬件的強大安全性保護敏感數據和 AI 模型,使其免遭未經授權的訪問,能夠增強人形機器人等AI智能體的數據安全特性。因此,Blackwell 架構不僅是算力的升級,而是帶來了算力、效能、安全性等方面的全面提升,推動人形機器人從實驗室走向工業、服務、特種作業等場景。
結語
從數據孤島到生態協同,從場景局限到通用泛化,NVIDIA Isaac GR00T N1數據集和模型的出現,使得研發通用人形機器人不再受困于數據缺失,并帶來了“數據合成 + 智能推理”的高效范式,僅需要少量的示范數據就能模擬人類大腦的決策邏輯,讓通用人形機器人在家庭服務、工業分揀、醫療護理等復雜場景中更快落地。在此過程中,Jetson AGX Thor 計算平臺與 Blackwell 架構的創新賦能價值凸顯,為人形機器人裝上了高性能的“智能引擎”。
未來,隨著物理 AI 與生成式 AI 的深度耦合,人形機器人將從 “定制化工具” 邁向 “通用化智能體”,真正融入人類生活的每個角落,開啟人機協作的全新時代。
-
人形機器人
+關注
關注
7文章
726瀏覽量
17603
發布評論請先 登錄
人形機器人搶鏡車展,商業化拐點提速到來

Robotous加速人形機器人研發與全球合作布局
AgiBot World Colosseo:構建通用機器人智能的規模化數據平臺

短訊:全球首個!人形機器人技術新突破
人形機器人涉及的化工材料

伺服電動缸在人形機器人中的應用
《人形機器人產業地圖(2024)》重磅發布!

評論