在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于NVIDIA AI的3D機器人感知與地圖構建系統設計

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 2025-07-04 14:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

機器人必須感知和理解其 3D 環境,才能安全高效地行動。這一點在非結構化或陌生空間中的自主導航、對象操作和遠程操作等任務尤為重要。當前機器人感知技術的進展,越來越多地體現在通過統一的實時工作流與強大的感知模塊,實現 3D 場景理解、可泛化物體跟蹤與持久性空間記憶的集成。

本期“NVIDIA 機器人研究與開發摘要 (R2D2) ”將探討 NVIDIA 研究中心的多個感知模型和系統,這些模型和系統支持統一的機器人 3D 感知堆棧。它們可在不同的真實世界環境中實現可靠的深度估計、攝像頭和物體位姿追蹤以及 3D 重建:

FoundationStereo(CVPR 2025 最佳論文提名):用于立體深度估計的基礎模型,可在各種環境(包括室內、室外、合成和真實場景)中實現零樣本性能的泛化。

PyCuVSLAM:用于 cuVSLAM 的 Python Wrapper,支持 Python 用戶利用 NVIDIA 的 CUDA 加速 SLAM 庫,用于實時攝像頭位姿估計和環境建圖。

BundleSDF:用于 RGB-D 視頻中 6-DoF 物體位姿追蹤和密集 3D 重建的神經系統。

FoundationPose:可泛化的 6D 物體位姿估計器和跟蹤器,適用于僅有最少先驗信息的新物體。

nvblox Pytorch Wrapper:nvblox 庫的 Pytorch wrapper,nvblox 是一個 CUDA 加速庫,用于 PyTorch 的深度攝像頭 3D 重建。

3D 空間表示:機器人感知的核心

這些項目的核心在于強調 3D 空間表示,即以機器人可以使用的形式捕獲環境或物體的結構。FoundationStereo 可處理立體圖像深度估計的基本任務。它引入了一個用于立體深度的基礎模型,專為實現強零樣本泛化而設計。

f4ade38e-5661-11f0-9ca0-92fbcf53809c.png

圖 1. 使用 FoundationStereo 生成的視差圖像

FoundationStereo 已在超過 100 萬對合成立體圖像上進行訓練。它無需針對特定場景進行調整,即可在各種環境(包括室內、室外、合成和真實場景,如圖 1 所示)中推斷出準確的視差,從而推理得到 3D 結構。輸出包括表示場景 3D 結構的密集深度圖或點云。

在環境映射方面,nvblox 和 cuVSLAM 等庫會隨著時間的推移構建空間表示。NVIDIA 的 nvblox 是一個 GPU 加速的 3D 重建庫,可重建體素網格體素網格,并輸出用于導航的 Euclidean signed distance field (ESDF) 熱圖。這使移動機器人能夠僅使用視覺進行 3D 避障,為昂貴的 3D 激光雷達傳感器提供了一種經濟高效的替代方案。

雖然 nvblox 擅長幾何映射,但缺乏對環境的語義理解。借助 nvblox_torch,我們引入了一個 PyTorch Wrapper,它可以將 2D VLM 基礎模型的語義嵌入提升到 3D。

同樣,cuVSLAM 通過 Isaac ROS 為機器人提供 GPU 加速的視覺慣性 SLAM。cuVSLAM 以前僅限于 ROS 用戶,現在可以通過名為 PyCuVSLAM 的新 Python API 進行訪問,這簡化了數據工程師深度學習研究人員的集成工作。

深度和地圖構建模塊可創建幾何支架(無論是點云、signed distance fields,還是特征網格),并在此基礎上構建更高級別的感知和規劃。如果沒有可靠的 3D 呈現,機器人就無法準確感知、記憶或推理世界。

用于場景理解的實時 SLAM和攝像頭位姿估計

將這些項目連接在一起的一個關鍵方面是通過 SLAM(同步定位與地圖構建)實現實時場景理解。cuVSLAM 是一種高效的 CUDA 加速 SLAM 系統,用于在機器人的板載 GPU 上運行的立體視覺慣性 SLAM。

f4c6d060-5661-11f0-9ca0-92fbcf53809c.png

圖 2. 使用 cuVSLAM 生成的定位

對于更偏向使用 Python 的簡單性和通用性的開發者來說,利用強大而高效的 Visual SLAM 系統仍然是一項艱巨的任務。借助 PyCuVSLAM,開發者可以輕松地對 cuVSLAM 進行原型設計并將其用于應用,例如通過互聯網規模的視頻生成機器人訓練數據集。該 API 可以從第一人稱觀看視頻中估計自我攝像頭的位姿和軌跡,從而增強端到端決策模型。此外,將 cuVSLAM 集成到 MobilityGen 等訓練流程中,可以通過學習真實的 SLAM 系統錯誤來創建更穩健的模型。功能示例如圖 2 所示。

實時 3D 映射

f4d7177c-5661-11f0-9ca0-92fbcf53809c.gif

圖 3. 上圖顯示了使用 nvblox_torch 構建的重建,左下角展示了將視覺基礎模型特征融合到 3D voxel grid 中的過程,這是表示場景語義內容的常用方法。

右下角顯示了從重建中提取的 3D 距離場切片

nvblox_torch 是一個易于使用的 Python 接口,用于 nvblox CUDA 加速重建庫,允許開發者輕松地對用于操作和導航應用的 3D 地圖構建系統進行原型設計。

空間記憶是機器人完成較長距離任務的核心能力。機器人通常需要推理場景的幾何和語義內容,其中場景的空間范圍通常大于單個攝像頭圖像所能捕獲的空間范圍。3D 地圖將多個視圖中的幾何和語義信息聚合為場景的統一表示。利用 3D 地圖的這些特性可以提供空間記憶,并支持機器人學習中的空間推理。

nvblox_torch 是一個 CUDA 加速的 PyTorch 工具箱,用于使用 RGB-D 攝像頭進行機器人映射。該系統允許用戶在 NVIDIA GPU 上將環境觀察結果與場景的 3D 呈現相結合。然后,可以查詢此 3D 表示形式的數量,例如障礙物距離、表面網格和占用概率(請見圖 3)。nvblox_torch 使用來自 PyTorch 張量的零復制輸入/ 輸出接口來提供超快性能。

此外,nvblox_torch 還添加了深度特征融合這一新功能。此功能允許用戶將視覺基礎模型中的圖像特征融合到 3D 重建中。隨后,生成的重建將同時表示場景的幾何圖形和語義內容。3D 基礎模型特征正在成為基于語義的導航和語言引導操作的熱門表示方法。nvblox_torch 庫中現已提供此表示方法。

6-DoF 物體位姿追蹤和新物體的 3D 重建

以物體為中心的感知也同樣重要:了解場景中的物體是什么、它們在哪里以及它們如何移動。FoundationPose 和 BundleSDF 這兩個項目解決了 6-DoF 物體位姿估計和追蹤的挑戰,其中也包括機器人以前從未見過的物體。

FoundationPose 是一種基于學習的方法:它是用于 6D 物體位姿估計和跟蹤的統一基礎模型,適用于基于模型和無模型的場景。這意味著同一系統可以處理已知對象(如果有可用的 CAD 模型)或全新對象(僅使用少量參考圖像),而無需重新訓練。FoundationPose 通過利用神經隱式表示來合成物體的新視圖來實現這一點,有效地彌合了完整 3D 模型與僅有稀疏觀察之間的差距。

它在大規模合成數據上進行訓練(借助基于 LLM 的數據生成工作流等技術),具有強大的泛化能力。事實上,只要提供最少的信息,比如模型或圖像,就可以在測試時即時應用于新對象。這種基礎模型方法在位姿基準測試中實現了最出色的準確性,在保持對新物體的零樣本能力的同時,性能優于專門方法。

f50556aa-5661-11f0-9ca0-92fbcf53809c.gif

圖 4. FoundationPose 在機器人機械臂中的應用

BundleSDF 采用在線優化驅動的方法來解決此問題,提供了一種近實時 (~ 10 Hz) 方法,用于從 RGB-D 視頻中同時進行 6-DoF 位姿追蹤和神經 3D 重建。它僅假設第一幀中的分割;之后不需要先驗 CAD 模型或類別知識。

BundleSDF 的關鍵是并發學習的 Neural Object Field,一種神經隱式 SDF,可在觀察時捕獲物體的幾何圖形和外觀。當物體移動時,BundleSDF 會使用過去的幀不斷優化位姿圖,隨著時間的推移優化位姿軌跡和形狀估計。位姿估計與形狀學習的集成可有效解決大型位姿變化、遮擋、低紋理表面和鏡面反射等挑戰。在交互結束時,機器人可以擁有一致的 3D 模型并追蹤動態獲取的位姿序列。

該框架概述如圖 5 所示。首先,在連續圖像之間匹配特征以獲得粗略的位姿估計 (Sec. 3.1),一些位姿幀存儲在內存池中一遍后續進行優化 (Sec. 3.2),根據池中的一個子集動態創建位姿圖 (Sec. 3.3),在線優化會細化圖中的所有位姿以及當前位姿,更新的位姿存儲回池中。最后,池中的所有位姿幀在單獨的線程中,學習 Neural Object Field,用于對幾何和視覺紋理進行建模 (Sec. 3.4),同時調整之前估計的位姿。

f5b6f900-5661-11f0-9ca0-92fbcf53809c.png

圖 5. BundleSDF 框架,該框架使用內存增強的位姿圖來估計和優化視頻流中的 3D 物體位姿,

并學習幾何圖形和外觀的神經物體表示

FoundationPose 和 BundleSDF 都強調了對象級 3D 理解在機器人開發中的重要性。機器人如果需要抓取或操控任意物體,必須能夠感知物體的 3D 位置和方向(位姿),通常還需要感知其形狀。這些項目展示了兩條互補的路徑:預訓練的基礎模型,通過學習廣泛的先驗來泛化到新對象;以及用于構建自定義模型的對象的在線 neural SLAM 。在實踐中,這些功能甚至可以協同工作,例如,基礎模型可以提供初步猜測,然后通過在線重建進行改進。機器人正在朝著新物體的實時 6D 感知發展,而不是局限于識別一組固定的已知物體。

基礎模型:跨任務的泛化和統一

更多的機器人感知系統利用基礎模型,即只需極少調整即可跨任務泛化的大型神經網絡。這在 FoundationStereo 和 FoundationPose 中很明顯,它們分別為立體深度估計和 6D 物體位姿追蹤提供了強有力的基準。

FoundationStereo 將之前于 DepthAnythingV2 的側調整單目深度整合到立體模型框架中,無需重新訓練即可增強魯棒性和域泛化。它在各種環境中使用超過 100 萬個合成立體對進行訓練,在 Middlebury、KITTI 和 ETH3D 數據集等基準測試中實現了先進的零樣本性能。該模型改進了成本體積編碼器和解碼器,增強了遠程差異估計。

在圖 6 中,Side-Tuning Adapter (STA) 利用來自凍結的 DepthAnythingV2 的豐富單目先驗,以及來自多級 CNN 的詳細高頻特征來提取一元特征。Attentive Hybrid Cost Filtering (AHCF) 將 Axial-Planar Convolution (APC) 過濾與 Disparity Transformer (DT) 模塊相結合,在 4D 混合成本體積中有效聚合跨空間和差異維度的特征。根據此過濾后的成本量預測初始差異,并使用 GRU 塊進行細化。每個優化階段都會使用更新后的差異從過濾后的混合成本體積和相關體積中查找特征,從而指導下一個優化步驟,并產生最終的輸出差異。

f5cdda26-5661-11f0-9ca0-92fbcf53809c.png

圖 6. 通過 AHCF 從輸入圖像到輸出差異的 FoundationStereo 流

FoundationPose 是一個統一模型,用于對新物體進行單幀 6D 位姿估計和多幀位姿追蹤。它通過學習物體幾何圖形的神經隱式表示,支持基于模型和基于圖像的推理。它使用 CAD 模型或一些 RGB 引用泛化到不可見的對象。它基于大語言模型生成的大型合成數據集進行訓練,包括各種任務提示和場景變體。

FoundationPose 利用對比訓練和基于 Transformer 的編碼器,在 YCB-Video、T-LESS 和 LM-OCC 等基準測試中的表現明顯優于 CosyPose 和 StablePose 等特定任務基準。圖 7 展示了 FoundationPose 的工作原理。為了減少大規模訓練的人工工作量,我們使用新興技術和資源(包括 3D 模型數據庫、LLMs 和 diffusion models)創建了合成數據生成工作流 (Sec. 3.1)。為了將無模型設置和基于模型的設置連接起來,我們使用 object-centric neural field (Sec. 3.2),用于新穎的視圖 RGB-D 渲染和渲染與比較。對于位姿估計,我們會在物體周圍均勻地初始化全局位姿,并通過 refinement network 進行優化 (Sec. 3.3)。最后,我們將優化后的位姿發送到位姿選擇模塊,以預測其分數,并選擇具有最佳分數的姿勢作為輸出 (Sec. 3.4)。

f5e1e2a0-5661-11f0-9ca0-92fbcf53809c.png

圖 7. 該工作流通過結合神經渲染、細化和位姿假設排序來生成合成訓練數據并估計物體位姿

這些模型共同標志著機器人技術在構建統一可復用感知主干的道路上邁出了關鍵一步。通過將深度和物體幾何的通用先驗知識嵌入實時系統,機器人能夠在零樣本場景中(包括訓練未涉及的環境中以及從未見過的物體交互場景)實現可靠性能,隨著機器人技術朝著更具適應性的開放世界部署發展,基礎模型提供了在通用感知框架內支持廣泛任務所需的靈活性和可擴展性。

邁向集成式 3D 感知堆棧

這些項目共同指向一個統一的 3D 感知堆棧,其中深度估計、SLAM、物體追蹤和重建作為緊密集成的組件運行。FoundationStereo 可提供可靠的深度,cuVSLAM 可跟蹤攝像頭位姿以進行實時定位和映射,而 BundleSDF 和 FoundationPose 可處理物體級理解,包括 6-DoF 追蹤和形狀估計,即使是未見過的物體也不例外。

通過基于 foundation models 和神經 3D 表征構建,這些系統實現了通用的實時感知,支持在復雜環境中進行導航、操作和交互。機器人技術的未來在于這種集成堆棧,其中感知模塊共享表示和上下文,使機器人能夠以空間和語義意識進行感知、記憶和行動。

總結

本期 R2D2 探討了立體深度估計、SLAM、物體位姿跟蹤和 3D 重建等領域的最新進展,以及如何融合到統一的機器人 3D 感知堆棧中。這些工具大多由基礎模型驅動,使機器人能夠實時理解環境并與之交互,即使面對新物體或陌生場景也能應對自如。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    29663

    瀏覽量

    212387
  • NVIDIA
    +關注

    關注

    14

    文章

    5292

    瀏覽量

    106152
  • AI
    AI
    +關注

    關注

    88

    文章

    34909

    瀏覽量

    277889
  • 模型
    +關注

    關注

    1

    文章

    3511

    瀏覽量

    50280

原文標題:R2D2:利用 NVIDIA 研究中心的研究成果,構建 AI 驅動的 3D 機器人感知與地圖構建系統

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    基于3D視覺技術的機器人系統

    隨著科學技術的不斷進步,未來3D視覺系統將成為機器人系統的標準附加設備,攜手機器人共同打造夢幻般視覺。
    發表于 05-14 11:57 ?4715次閱讀

    物聯網、AR、3D打印、機器人未來將改變我們的生活?

    導讀: 物聯網、增強現實(AR)、3D打印和機器人技術,曾經只能在科幻電影里看到的黑科技,正在逐漸走進我們的生活。由口袋妖怪到AR紅包,越來越多的新技術在不斷走進我們的生活!似乎每過一天,新技術就變
    發表于 10-19 09:18

    走到哪都不會迷路,全自動機器人是怎么導航的?

    3D地圖中,也是靠這種方法定位。 無人車激光雷達生成定位地圖那萬一機器人走進溝里、爬樹上了怎么辦?我們也有對策。平面中,常用二維柵格地圖,
    發表于 05-11 11:51

    Voxel 3D 飛行時間傳感器機器人視覺參考設計

    的性能,此外還探討了 3D 傳感器(積分時間、飽和度)、信號處理(濾波)和外部紅外 (IR) 輻射源對測量的影響。憑借 3D TOF 解決方案的距離測量準確性,掃地機器人能夠檢測和識別物體并
    發表于 10-11 15:37

    怎么構建一張滿足機器人導航需求的地圖?

    使用的算法與傳感器差異采用不同的地圖描述形式,所以構建一張可靠的地圖機器人有著極其重要的作用,那如何構建滿足
    發表于 08-18 06:47

    未來的機器人3D視覺系統將會發生什么樣的變化?

    視覺系統的發展趨勢怎么樣?3D視覺系統應用在哪些方面?未來的機器人3D視覺系統將會發生什么樣的變
    發表于 05-11 06:40

    全球3D芯片及模組引領者,強勢登陸中國市場

    ,助力合作伙伴實現3D夢想3D視覺技術是高端制造和智能制造機器人的關鍵技術,它賦予了機器人“眼睛和大腦”三維感知能力,是
    發表于 11-29 11:03

    基于Arduino的3D打印2輪機器人

    描述AR.LO - Arduino 3D 打印機器人AR.LO 是一款基于 Arduino 的 3D 打印 2 輪機器人。它具有:OLED 顯示屏、超聲波傳感器、藍牙模塊和 2 個改進
    發表于 08-12 07:55

    基于VSLAM的移動機器人三維定位與地圖構建

    移動機器人在探索未知環境且沒有外部參考系統的情況下,面臨著同時定位和地圖構建( SLAM)問題。針對基于特征的視覺SLAM( VSLAM)算法構建
    發表于 11-24 16:33 ?23次下載
    基于VSLAM的移動<b class='flag-5'>機器人</b>三維定位與<b class='flag-5'>地圖</b><b class='flag-5'>構建</b>

    3D打印構建“折紙”機器人抓手

    麻省理工使用3D打印來構建“折紙”機器人抓手
    的頭像 發表于 03-20 14:16 ?5410次閱讀

    抓取作業機器人3D視覺系統的設計

    本文主要研究3D視覺技術在機器人抓取作業中的應用,總結了3D視覺技術在識別、定位物體時面臨的挑戰,給出了抓取作業機器人3D視覺
    的頭像 發表于 07-25 08:43 ?7659次閱讀

    INDEMIND 3D語義地圖構建技術在機器人上的應用

    隨著機器人的應用版圖從工廠不斷擴張到商場、超市等服務領域,面對的作業環境也越來越復雜,對于產品的安全性、可靠性、智能化等要求明顯提高,而機器人要應對這一變化,首先要做的不是對系統盲目的做加法,而是需要提升環境
    的頭像 發表于 03-10 10:16 ?1585次閱讀

    機器人如何構建3D語義地圖?

    業務邏輯的高層次語義信息,相反,3D語義地圖不僅包含物體及環境的結構信息,還有物體類別、功能屬性等“常識”性信息,可以說是機器人的保姆級地圖。
    發表于 08-11 11:01 ?724次閱讀

    NVIDIA Isaac 平臺先進的仿真和感知工具助力 AI 機器人技術加速發展

    ? NVIDIA Isaac ROS 2.0 ?和? NVIDIA Isaac Sim 2023.1? 以及感知和仿真升級進行了發布,用以簡化 ROS 開發者對高性能 AI
    的頭像 發表于 10-20 02:00 ?1444次閱讀
    <b class='flag-5'>NVIDIA</b> Isaac 平臺先進的仿真和<b class='flag-5'>感知</b>工具助力 <b class='flag-5'>AI</b> <b class='flag-5'>機器人</b>技術加速發展

    利用NVIDIA Isaac平臺構建、設計并部署機器人應用

    機器人在智能制造設施、商業廚房、醫院、倉庫物流和農業領域等不同環境中的應用正在迅速擴展。該行業正在向智能自動化轉變,這需要增強的機器人功能來執行感知、地圖
    的頭像 發表于 11-09 11:41 ?1706次閱讀
    利用<b class='flag-5'>NVIDIA</b> Isaac平臺<b class='flag-5'>構建</b>、設計并部署<b class='flag-5'>機器人</b>應用
    主站蜘蛛池模板: 日韩欧美在线第一页 | 国产麻豆成人传媒免费观看 | 美女自熨出白浆视频在线播放 | 天天精品视频在线观看资源 | 免费啪啪网 | 伊人黄| 美女扒开尿囗给男人玩的动图 | 韩国午夜精品理论片西瓜 | 午夜影院官网 | 欧美成人免费午夜全 | 男女交性永久免费视频播放 | 五月情婷婷 | 国产性videostv另类极品 | 中国性猛交xxxx乱大交 | 91学院派女神 | 午夜免费视频福利集合100 | 天天曰天天爽 | asian极品呦女爱爱 | 婷婷午夜天 | 亚洲68283精品人体 | 欧美日韩中文字幕在线 | 午夜剧j| 最近2018中文字幕免费看在线 | 成人国产精品一级毛片了 | 四虎国产精品视频免费看 | 国产在线欧美精品卡通动漫 | 婷婷色在线视频 | 中文天堂最新版在线中文 | 萝控喷水视频 | 四虎永久在线观看视频精品 | 高清一区高清二区视频 | 免费一级e一片在线播放 | 99色在线播放 | 国产清纯白嫩大学生正在播放 | 美女视频黄a视频免费全过程 | 久久婷婷综合五月一区二区 | 99草精品视频 | 国产香港日本三级在线观看 | 精品视频一二三区 | 亚洲精品91香蕉综合区 | 男操女视频在线观看 |