CES 2025上,人形機器人新品密集發布,成為展會最大亮點之一。透過CES 2025不難看出,今年將成為全球人形機器人發展的關鍵之年,一大批人形機器人項目將開始規?;慨a,產品功能豐富多元。
?
目前,已經有包括Walker S1在內的人形機器人入廠實習,也有非常多的陪伴型人形機器人進入場景調試的關鍵環節。在這個過程中,如何讓人形機器人更好地理解真實的物理世界,成為產業爆發需要補齊的最后一環,也是NVIDIA的Isaac GR00T Blueprint、Cosmos世界基礎模型(WFM)和Jetson Thor芯片引起業界廣泛關注的原因。
?
人形機器人重點市場分析和技術前沿探索
隨著技術和產品逐漸成熟,全球人形機器人市場發展迸發出澎湃的動能。高盛在報告中預測稱,到2035年全球人形機器人出貨量將達140萬臺,市場規模約380億美元。這一預測相較于該機構約兩年前的預測(約60億美元)增長了6倍多。根據中國信息通信研究院發布的《人形機器人產業研究報告(2024版)》,人形機器人發展大致分為5個階段,分別是:
·Lv1基礎能力實現:具備穩定地走、跑、跳功能和初步的交互能力;
·Lv2初級智能實現:特定場景下的特定功能,結構化任務,泛化能力較弱;
·Lv3場景智能實現:特定場景下能夠完成大部分非結構化任務,具備一定泛化能力;
·Lv4多場景適配:在多個場景均能夠完成大部分非結構化的任務,不少于3個場景;
·Lv5全面智能實現:實現真正的具身智能,通過簡單的學習即可完成各類任務。
?
如下圖所示,當到達Lv5階段時,全球人形機器人的部署規模將超過1億臺,市場規模將達到約10萬億元,其中工業和服務場景是主要的落地領域。NVIDIA 機器人與邊緣計算副總裁Deepu Talla表示,“在我的觀念里,機器人是人工智能最大的應用方向之一。”有三大推動因素讓機器人變得不可或缺,包括工作演變和職業選擇造成的勞動力短缺,礦工等工種依然在危險環境中進行作業,以及人類壽命延長和社會老齡化帶來的養老問題。毫無疑問,在這些場景里,人形機器人作為目前最智慧的機器人形態,有著更好的通用性,也有著光明的市場前景。
?
人形機器人發展階段分析,圖源:中國信息通信研究院
?
目前,全球人形機器人發展主要處于Lv1和Lv2階段,進入實習階段、應用于工業場景的人形機器人產品大都處于Lv2階段,代表著產業技術的最前沿。人形機器人對于“人形”的追求主要是為了塑造等同于人類的通用能力,從“專機專用”逐步走向“一機多用”。從事工業制造的人形機器人將從封閉式的工位逐步擴展到整個工廠;從事服務類型的人形機器人將會邁出家門走向全社會。
?
要實現人形機器人的通用能力需要強化機器人的“大腦”“小腦”和“肢體”能力,這些功能單元分別負責人形機器人的任務調度、運動控制和感知執行。Deepu Talla認為,當前全球人形機器人市場爆發主要受益于技術的進步和仿真環境的改進,涉及人形機器人的模型訓練、環境感知和最終部署。因此,打造人形機器人需要用到“三臺計算機”:
·第一臺計算機用于訓練:訓練通常在云端、數據中心或NVIDIA DGX這樣的強大平臺上進行,是構建機器人“大腦”的關鍵步驟。比如開發人員可以在NVIDIA DGX平臺上使用NVIDIA NeMo來訓練和微調生成式AI模型,讓人形機器人變得更加智慧。
?
·第二臺計算機用于仿真:仿真平臺和模擬環境讓訓練完成的人形機器人避免進行效率低、成本高、風險高的物理測試。通過“數字孿生”的方式,開發人員可以在NVIDIA OVX服務器上運行的NVIDIA Omniverse里構建一個仿真層,在虛擬環境中完成人形機器人的功能測試。仿真允許在大規模、快速且安全的條件下運行數千種場景測試,而無需受到真實世界時間和成本的限制。開發人員還可以使用NVIDIA Isaac Lab,這個開源的機器人學習框架能夠顯著提升人形機器人訓練和調優的效率。
?
開發人員可以在極其逼真的虛擬環境下進行人形機器人測試,圖源:NVIDIA
?
·第三臺計算機用于部署:訓練和測試完成的模型和系統需要部署到人形機器人內部,作為機器人的“大腦”。比如,NVIDIA Jetson Thor計算機系統便是NVIDIA專門為人形機器人打造的緊湊型計算平臺。
?
從目前產業發展現狀來看,用于訓練、仿真和部署的高性能計算系統,在性能提高上可謂是高歌猛進,但如何利用好這些硬件進行訓練、仿真還存在一些不足,且已經逐漸演化為人形機器人產業發展的瓶頸。其中一個很突出的產業痛點是用于模仿學習的專家數據,無論是獲取效率還是數據量都不能很好地滿足當前人形機器人爆發對于參考演示數據集的需求。
?
具體而言,多角度對人模仿是人形機器人功能實現的主要技術邏輯,然而目前作為人形機器人“大腦”的AI大模型普遍采用的是基于視覺或語音的感知模態,對于真實物理環境的理解存在著非常大的限制,尤其是泛化能力方面,現階段的人形機器人在應對新環境和新任務時的表現往往不盡如人意。
?
模仿學習是人形機器人訓練和測試調優的關鍵所在,主要方式包括行為克隆(Behavior Cloning)、逆向強化學習(Inverse Reinforcement Learning)等實現方式,無論是哪種方式都需要大量的數據作為參考。為了提升基于有限數據訓練算法模型的效果,開發人員在開發模仿學習算法模型時,很多時候會選擇DAgger(人類對不好效果進行重新演示)或模仿給定策略(通過獎勵網絡盡量擬合提供的示教數據)等措施,不過這些措施都有一些先天的不足。
?
比如,DAgger依賴人工去調優一些不好的訓練結果,這種方式效率很低,且很多機器人要實現的策略是人類無法實現的,像超高精度的手部控制,六軸陀螺儀動作校準等;GAIL(Generative Adversarial Imitation Learning)便是逆向強化學習中一種示例模擬算法,不過這些策略也可能會因為專家數據不足而導致無法收斂的情況,得不到滿意的調優結果。
?
DAgger算法示例,圖源:騰訊云開發人員社區
?
并且,之前各種訓練和仿真機制實際上都不能反饋出人形機器人對物理世界的真實反饋,在實際部署過程中會出現大量超出訓練和測試范疇的情況。過往,人形機器人需要在漫長的實習期內進行大量的反復校準,以盡可能去突破真實工作環境造成的行為約束,這種方式費時費力。因而,將物理AI引入人形機器人訓練和仿真環節已經刻不容緩。
?
Isaac GR00T Blueprint讓人形機器人更好地理解物理世界
作為物理學與AI技術相互交融的前沿領域,物理AI是生成式AI下一步發展的重點方向之一。根據NVIDIA官網的術語解讀,物理AI是指使用運動技能理解現實世界并與之進行交互的模型,通常封裝在機器人或自動駕駛汽車等自主機器中。
?
如上所述,傳統的AI大模型是基于互聯網上現有的文本和圖片訓練而得,訓練數據類型讓這些模型具有驚人的邏輯、概念和語言能力,但對真實物理世界的了解卻非常有限。當部署到智能手機、PC等終端時,這些AI大模型會有很好的效果,不過人形機器人需要作為智能體從事制造和服務等工作,與現實世界之間有大量的交互,此時傳統AI大模型作為人形機器人“大腦”就會受到大量的規則約束,自主性非常低。
?
物理AI通過3D訓練數據和強化學習策略,為人形機器人的發展帶來了基于物理世界的強大模擬功能,提供安全受控的環境訓練。有了物理世界的“數字孿生”,人形機器人等自主機器能夠在模擬物理環境下通過數千甚至數百萬次試錯行為,安全快速地學習技能,顯著提升人形機器人在真實物理世界中的自主性,并增強人形機器人執行任務的效率和準確性。這便是CES 2025上NVIDIA推出Isaac GR00T Blueprint給人形機器人產業帶來的巨大價值。
?
Isaac GR00T Blueprint是專門用于合成運動軌跡生成的工作流,如下圖所示,Isaac GR00T Blueprint融合GR00T-Teleop工作流、GR00T-Mimic工作流和GR00T-Gen工作流,這一完整的工作流使得開發人員只需要少量人類示范,就能輕松生成海量的合成數據集。
?
Isaac GR00T Blueprint工作流,圖源:NVIDIA
?
Isaac GR00T Blueprint工作流解決了人形機器人訓練和仿真環節的核心痛點——數據獲取成本高、效率低,以及3D數據集缺失。在數據獲取環節,開發人員可以通過 GR00T-Teleop工作流和虛擬現實設備進行動作示范,和DAgger等算法模型采用的人工反復調優不同,GR00T-Teleop工作流能夠記錄下開發人員少量的示范動作,并作為模仿學習的“金標準”,然后讓人形機器人在虛擬環境下進行大量試錯,最終達成規范動作。
?
Deepu Talla指出,和自動駕駛能夠通過現有車輛獲取數據不同,現階段機器人的數量還不足以產生如此大的數據量,作為新興產品的人形機器人就更是如此了。因此,數據的稀缺性造成了傳統人形機器人訓練和仿真的局限性,合成數據生成變得至關重要。GR00T-Mimic工作流和GR00T-Gen工作流則著重解決了這一難題,其中GR00T-Mimic工作流通過捕捉人類的示范動作,可以擴展生成更大的合成運動數據集;然后GR00T-Gen工作流借助NVIDIA Omniverse和NVIDIA Cosmos平臺,通過域隨機化和3D提升技術,進一步指數級擴展這一數據集。
?
在整個工作流中,NVIDIA最新推出的Cosmos是一個用于加速物理AI開發的平臺,包含一系列開放的預訓練世界基礎模型,可以預測和生成虛擬環境未來狀態的物理感知視頻的神經網絡。Cosmos平臺的推出解決了人形機器人環境數據稀缺的問題,支持開發人員直接使用Cosmos模型生成符合物理學規律的合成數據,或利用NVIDIA NeMo框架,根據自己的視頻對模型進行微調,以實現特定物理AI設置,在仿真環境中調優各種人形機器人功能。根據NVIDIA官方分享的數據,Cosmos平臺已基于2000萬小時的真實世界人類互動、環境、工業、機器人和駕駛數據,訓練了9000萬億個token。因此,Cosmos平臺為開發人員帶來倍增的工作效率,相較于目前先進的tokenizer,Cosmos tokenizer的總壓縮率高8倍,處理速度快12倍。
?
Cosmos世界基礎模型,圖源:NVIDIA
?
通過Isaac GR00T Blueprint工作流和Cosmos世界基礎模型,NVIDIA幫助開發人員鋪平了人形機器人從實驗室走向真實物理世界的道路,克服了人形機器人因部署量小而造成的數據短缺問題。同時,憑借NVIDIA Isaac GR00T、Omniverse和Cosmos等平臺,NVIDIA提供了全球領先的人形機器人生態系統,擁有數量龐大的人形機器人合作伙伴群體。比如,波士頓動力、Figure和銀河通用等人形機器人公司正在使用Isaac GR00T開發自己的人形機器人系統;1X、Agile Robots、Agility、Uber等公司已經開始使用Cosmos世界基礎模型。
?
高性能計算芯片是實現物理AI的關鍵
綜上所述,物理AI的融入將進一步激發人形機器人的發展潛能,Isaac GR00T Blueprint工作流和Cosmos世界基礎模型的推出,解決了人形機器人訓練數據短缺問題,尤其是讓人形機器人更好地理解現實世界的3D數據集短缺問題,打通了人形機器人規模化落地的“最后一公里”。
?
想要更好地使用Isaac GR00T Blueprint工作流和Cosmos世界基礎模型,離不開NVIDIA提供的豐富的硬件資源。比如,在Isaac GR00T Blueprint工作流中,Cosmos世界基礎模型和NVIDIA Omniverse的配合實現了數據集指數級擴展,這個過程中,運轉Cosmos就需要強大的NVIDIA計算芯片作為支撐。根據測試數據,在等效功耗的CPU系統上處理2000萬小時視頻數據將需要3年以上的時間,而在NVIDIA Hopper GPU運轉Cosmos平臺僅用40天就能處理2000萬小時的數據,如果是采用NVIDIA Blackwell GPU,這一數字將進一步縮短至14天。
?
實際上,NVIDIA在打造人形機器人所需要的三臺計算機方面,都能夠提供高性能計算系統。在訓練方面,開發人員可以基于NVIDIA DGX平臺使用NVIDIA NeMo來訓練和微調自己的人形機器人算法模型;在仿真方面,NVIDIA OVX服務器上運轉的NVIDIA Omniverse提供了開發平臺和模擬環境,Cosmos平臺的加入進一步強化了這種能力;在部署方面,NVIDIA Jetson機器人計算機為人形機器人提供高算力和高效能的平臺。
?
Jetson是NVIDIA專為機器人等邊緣AI應用打造的緊湊型計算平臺,提供豐富的硬件以及預構建和云原生軟件服務。其中,開發人員現階段可選的Jetson模組包括Jetson AGX Orin系列、Jetson Orin NX系列和Jetson AGX Xavier系列等。
?
Jetson Thor系列是NVIDIA即將推出的新一代專為人形機器人打造的緊湊型計算平臺,基于NVIDIA Thor系統級芯片。根據Deepu Talla透露,Jetson Thor平臺性能可達到1050 TOPS,功耗最高可達120瓦,是現階段最強大的人形機器人部署平臺。人形機器人需要應對的環境和任務是復雜多樣的,開發人員為此創建了許多不同的 VLA(視覺、語言和動作)模型,Jetson Thor系列能夠為這些模型提供充足的算力支持。
?
之所以能夠形成產品如此豐富的硬件矩陣,原因在于每一代GPU架構都大致相同,這種架構一致性確保了人形機器人等AI應用在云端和端側部署的無縫連接和靈活性,讓人形機器人能夠應對更多的場景和任務。當然,每一代GPU架構迭代也都會帶來巨大的芯片性能提升,NVIDIA Thor系統級芯片背后的Blackwell架構便是該芯片成為最強大人形機器人部署平臺的關鍵因素之一。
?
對于Blackwell架構大家已經非常熟悉,作為NVIDIA最新一代GPU架構,基于多代NVIDIA技術構建,包括第二代 Transformer 引擎、Blackwell Tensor Core技術、NVIDIA TensorRT-LLM技術、NVIDIA機密計算技術、NVLink技術、解壓縮引擎等。同時,基于Blackwell架構的GPU都采用先進的制造工藝,包括專門定制的臺積電4NP工藝和雙倍光刻極限尺寸的裸片,并通過10 TB/s的片間互聯技術連接成一塊統一的GPU。這些關鍵的架構創新讓Jetson Thor平臺有著出色的算力和能效表現,為搭載最領先模型的人形機器人提供硬件性能保障。
?
Blackwell架構創新,圖源:NVIDIA
?
結語
正如Deepu Talla所言,目前人形機器人技術發展日新月異,還沒有哪一種VLA模型被行業認定為是通用人形機器人落地的最佳方案。不過,人形機器人在發展初期,訓練數據缺失的痛點是非常明顯的,尤其是提升環境交互能力的3D數據。由于缺乏這些數據,傳統人形機器人開發面臨人工調優工作量大、強化學習模型不易收斂等問題,成為產業發展的掣肘。
?
通過推出Isaac GR00T Blueprint工作流和Cosmos世界基礎模型,NVIDIA幫助開發人員完善了模擬學習和強化學習工作流。通過多樣化的參考架構,針對特定任務提供不同的Blueprints,以及全球領先的NVIDIA Omniverse 3D仿真環境,Isaac GR00T Blueprint最大程度地縮小了訓練數據和現實世界之間的不一致,幫助人形機器人適應真實的任務場景。
?
在這些工作流、世界基礎模型和仿真環境背后,NVIDIA提供豐富的硬件資源,覆蓋了人形機器人開發所需的“三臺計算機”需求,即將推出的Jetson Thor系列為各種技術路徑的人形機器人落地提供充足的算力支持。有了這些軟硬件資源,10萬億的全球人形機器人市場規模有望提前達成。
?
評論