在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用ReMEmbR實(shí)現(xiàn)機(jī)器人推理與行動能力

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2024-11-19 15:37 ? 次閱讀

視覺語言模型(VLM)通過將文本和圖像投射到同一個(gè)嵌入空間,將基礎(chǔ)大語言模型(LLM)強(qiáng)大的語言理解能力與視覺 transformer(ViT)的視覺能力相結(jié)合。VLM 可以處理非結(jié)構(gòu)化的多模態(tài)數(shù)據(jù)、對其進(jìn)行推理并以結(jié)構(gòu)化的格式返回輸出結(jié)果。由于經(jīng)過大量預(yù)訓(xùn)練,只需要為這些模型提供新的提示或進(jìn)行參數(shù)高效微調(diào),它們就能輕松適應(yīng)不同的視覺相關(guān)的任務(wù)。

這些模型還可以與實(shí)時(shí)數(shù)據(jù)源和工具集成,從而在不知道答案時(shí)請求獲得更多信息或在知道答案時(shí)采取行動。LLM 和 VLM 可以作為智能體對數(shù)據(jù)進(jìn)行推理,幫助機(jī)器人執(zhí)行可能難以定義的有意義的任務(wù)。

在此前一篇的文章利用 NVIDIA Jetson 實(shí)現(xiàn)生成式 AI中,我們展示了可以在NVIDIA Jetson Orin設(shè)備上運(yùn)行 LLM 和 VLM,從而在邊緣設(shè)備上實(shí)現(xiàn)零樣本物體檢測、視頻字幕、文本生成等多種新功能。

但如何將這些先進(jìn)技術(shù)應(yīng)用于機(jī)器人的感知和自主運(yùn)行?將這些模型部署到現(xiàn)場時(shí)又會面臨哪些挑戰(zhàn)?

本文將討論 ReMEmbR。該項(xiàng)目結(jié)合了 LLM、VLM 和檢索增強(qiáng)生成(RAG),使機(jī)器人能夠在數(shù)小時(shí)至數(shù)天的長時(shí)程部署期間,對所看到的事物進(jìn)行推理并采取行動。

ReMEmbR 在記憶構(gòu)建階段使用 VLM 和矢量數(shù)據(jù)庫來高效構(gòu)建長時(shí)程語義記憶,之后在查詢階段使用 LLM 智能體對該記憶進(jìn)行推理。它完全開源,并且可在設(shè)備端運(yùn)行。

ReMEmbR 解決了在機(jī)器人應(yīng)用中使用 LLM 和 VLM 時(shí)所面臨的諸多挑戰(zhàn):

如何處理大型上下文。

如何對空間記憶進(jìn)行推理。

如何構(gòu)建一個(gè)基于提示的智能體來查詢更多數(shù)據(jù),直到用戶的問題得到解答。

我們還進(jìn)一步構(gòu)建了一個(gè)在真實(shí)機(jī)器人上使用 ReMEmbR 的示例。我們在這項(xiàng)工作中使用了 Nova Carter 和NVIDIA Isaac ROS,并分享了我們所使用的代碼和步驟。如需了解更多信息,請參見以下資源:

適用于長時(shí)程時(shí)空記憶、

推理與行動的 ReMEmbR

人們越來越期待機(jī)器人能夠長時(shí)間感知環(huán)境并與之互動。機(jī)器人每次部署的時(shí)間長達(dá)數(shù)小時(shí)乃至數(shù)天,它們會偶然感知到不同的物體、事件和位置。

為了讓機(jī)器人在長時(shí)間部署的場景中能夠理解和回答那些需要復(fù)雜多步驟推理的問題,我們開發(fā)了 ReMEmbR 這一用于具身機(jī)器人的檢索增強(qiáng)記憶。

ReMEmbR 為機(jī)器人構(gòu)建了可擴(kuò)展的長時(shí)程記憶和推理系統(tǒng),提高了機(jī)器人的感知問題回答和語義行動能力。ReMEmbR 包含記憶構(gòu)建和查詢兩個(gè)階段。

在記憶構(gòu)建階段,我們借助 VLM,使用矢量數(shù)據(jù)庫構(gòu)建了結(jié)構(gòu)化記憶。在查詢階段,我們建立了一個(gè) LLM 智能體,它可以循環(huán)調(diào)用不同的檢索函數(shù),最終回答用戶提出的問題。

675dc2f8-a016-11ef-93f3-92fbcf53809c.png

圖 1. 完整的 ReMEmbR 系統(tǒng)

構(gòu)建更加智能的記憶

ReMEmbR 的記憶構(gòu)建階段就是讓機(jī)器人的記憶工作。當(dāng)機(jī)器人已被部署了數(shù)小時(shí)或數(shù)天時(shí),就需要一種高效的方式存儲這些信息。視頻雖然易于存儲,但卻難以查詢和理解。

在記憶構(gòu)建過程中,我們會截取視頻的短片段,使用NVIDIA VILA字幕生成 VLM 為其添加字幕,然后將它們嵌入到 MilvusDB 矢量數(shù)據(jù)庫。我們還在該矢量數(shù)據(jù)庫中存儲時(shí)間戳和坐標(biāo)信息。

該設(shè)置使我們能夠高效地存儲和查詢機(jī)器人記憶中的各種信息。通過使用 VILA 捕捉視頻片段,并將其嵌入到 MilvusDB 矢量數(shù)據(jù)庫,該系統(tǒng)可以記住 VILA 能夠捕捉到的任何內(nèi)容,包括從四處走動的人等動態(tài)事件和特定的小物體,到更加普遍的內(nèi)容類別。

使用矢量數(shù)據(jù)庫可以輕松添加供 ReMEmbR 考慮的新信息。

ReMEmbR 智能體

鑒于數(shù)據(jù)庫中存儲的記憶如此之長,標(biāo)準(zhǔn) LLM 很難對長上下文進(jìn)行快速推理。

ReMEmbR 智能體的 LLM 后端可以是NVIDIA NIM微服務(wù)、本地設(shè)備上的 LLM 或其他 LLM API。當(dāng)用戶提出問題時(shí),LLM 生成對數(shù)據(jù)庫的查詢并反復(fù)檢索相關(guān)信息。LLM 可以根據(jù)用戶提出的問題來查詢文本信息、時(shí)間信息或位置信息。這個(gè)過程不斷重復(fù),直到問題得到解答。

我們?yōu)?LLM 智能體使用了這些不同的工具,使機(jī)器人不僅能夠回答如何前往特定地點(diǎn)的問題,還能夠進(jìn)行空間和時(shí)間推理。圖 2 展示了這一推理階段的情況。

67a15a54-a016-11ef-93f3-92fbcf53809c.gif

圖 2. ReMEmbR 查詢和推理流程示例

在真實(shí)機(jī)器人上部署 ReMEmbR

為了演示如何將 ReMEmbR 集成到真實(shí)機(jī)器人中,我們使用 ReMEmbR 與NVIDIA Isaac ROS和 Nova Carter 構(gòu)建了一個(gè)演示。Isaac ROS 是一個(gè)基于開源 ROS 2 軟件框架構(gòu)建而成的加速計(jì)算軟件包和 AI 模型集,它將 NVIDIA 加速技術(shù)帶給了全球各地的 ROS 開發(fā)者

在演示中,機(jī)器人回答問題并引導(dǎo)人們參觀辦公室環(huán)境。為了讓大家了解如何構(gòu)建該應(yīng)用,以下是我們所采取的步驟:

構(gòu)建占用柵格地圖

運(yùn)行記憶構(gòu)建器

運(yùn)行 ReMEmbR 智能體

添加語音識別

構(gòu)建占用柵格地圖

第一步是創(chuàng)建環(huán)境地圖。為了建立矢量數(shù)據(jù)庫,ReMEmbR 需要訪問單目攝像頭圖像和全局位置(姿勢)信息。

68036bcc-a016-11ef-93f3-92fbcf53809c.png

圖 3. 使用 Nova Carter 繪制占用柵格地圖

根據(jù)環(huán)境或平臺的不同,獲取全局姿勢信息可能會具有一定的難度。幸運(yùn)的是,在使用 Nova Carter 時(shí),這項(xiàng)工作就會變得簡單。由 Nova Orin 參考架構(gòu)驅(qū)動的 Nova Carter 是一個(gè)完整的機(jī)器人開發(fā)平臺,能夠加速下一代自主移動機(jī)器人(AMR)的開發(fā)和部署。該平臺在配備 3D 激光雷達(dá)后,可以生成精準(zhǔn)且全局一致的度量地圖。

6827d282-a016-11ef-93f3-92fbcf53809c.gif

圖 4. 使用 Nova Carter 構(gòu)建的

占用柵格地圖的 FoxGlove 可視化圖

按照 Isaac ROS 文檔,我們通過遙控機(jī)器人,快速繪制出占用柵格地圖。該地圖之后在建立 ReMEmbR 數(shù)據(jù)庫時(shí)被用于定位,并在最終部署機(jī)器人時(shí)被用于路徑規(guī)劃和導(dǎo)航。

運(yùn)行記憶構(gòu)建器

在創(chuàng)建環(huán)境地圖后,第二步是填充 ReMEmbR 使用的矢量數(shù)據(jù)庫。為此,我們在遙控機(jī)器人的同時(shí),運(yùn)行 AMCL 進(jìn)行全局定位。有關(guān)如何使用 Nova Carter 實(shí)現(xiàn)這一操作的更多信息,請參見教程:使用 Isaac Perceptor 和 Nav2 進(jìn)行自主導(dǎo)航:

https://nvidia-isaac-ros.github.io/reference_workflows/isaac_perceptor/tutorials_on_carter/demo_navigation.html

68606d72-a016-11ef-93f3-92fbcf53809c.png

圖 5. 運(yùn)行 ReMEmBr 記憶構(gòu)建器

在后臺運(yùn)行定位后,我們又啟動了兩個(gè)專門用于記憶構(gòu)建階段的 ROS 節(jié)點(diǎn)。

第 1 個(gè) ROS 節(jié)點(diǎn)運(yùn)行 VILA 模型,為機(jī)器人攝像頭圖像生成字幕。該節(jié)點(diǎn)在設(shè)備上運(yùn)行,因此即便網(wǎng)絡(luò)時(shí)斷時(shí)續(xù),我們也能建立一個(gè)可靠的數(shù)據(jù)庫。

由于使用了 NanoLLM 進(jìn)行量化和推理,在 Jetson 上運(yùn)行該節(jié)點(diǎn)變得更加容易。Jetson AI Lab中就有這個(gè)庫和許多其他庫。最近甚至還發(fā)布了一個(gè) ROS 軟件包(ros2_nanollm),用于將 NanoLLM 模型與 ROS 應(yīng)用輕松集成。

第二個(gè) ROS 節(jié)點(diǎn)獲取 VILA 生成的標(biāo)題以及 AMCL 節(jié)點(diǎn)估計(jì)的全局姿態(tài)。它為字幕建立文本嵌入,并將姿勢、文本、嵌入和時(shí)間戳存儲到矢量數(shù)據(jù)庫中。

運(yùn)行 ReMEmbR 智能體

68778250-a016-11ef-93f3-92fbcf53809c.png

圖 6. 運(yùn)行 ReMEmbR 智能體

以回答用戶查詢并導(dǎo)航至目標(biāo)姿勢

在填充了矢量數(shù)據(jù)庫后,就滿足了 ReMEmbR 智能體回答用戶查詢和生成有意義動作所需的一切條件。

第三步是運(yùn)行現(xiàn)場演示。為了使機(jī)器人的記憶保持靜態(tài),我們禁用了圖像字幕生成和記憶構(gòu)建節(jié)點(diǎn),并啟用了 ReMEmbR 智能體節(jié)點(diǎn)。如前所述,ReMEmbR 智能體負(fù)責(zé)接收用戶查詢、查詢矢量數(shù)據(jù)庫,并確定機(jī)器人應(yīng)采取的適當(dāng)行動。在本例中,該行動是與用戶查詢相對應(yīng)的目的地目標(biāo)姿勢。

然后,我們通過手動輸入用戶查詢,對系統(tǒng)進(jìn)行了端到端測試:

“帶我去最近的電梯”

“帶我去一個(gè)可以吃零食的地方”

ReMEmbR 智能體確定最佳目標(biāo)姿勢并將其發(fā)布到/goal_pose主題中。然后,路徑規(guī)劃器會生成一條全局路徑,將機(jī)器人導(dǎo)航至該目標(biāo)。

添加語音識別

在實(shí)際應(yīng)用中,用戶很可能無法使用終端來輸入查詢,因此需要一種直觀的方式與機(jī)器人進(jìn)行交互。為此,我們進(jìn)一步開發(fā)了該應(yīng)用,集成了語音識別功能來為該智能體生成查詢。

在 Jetson Orin 平臺上集成語音識別功能十分簡單。為此,我們編寫了一個(gè) ROS 節(jié)點(diǎn),該節(jié)點(diǎn)封裝了最近發(fā)布的 WhisperTRT 項(xiàng)目。WhisperTRT 利用NVIDIA TensorRT優(yōu)化了 OpenAI 的 whisper 模型,從而在Jetson AGX Orin和NVIDIA Jetson Orin Nano上實(shí)現(xiàn)了低延遲推理。

WhisperTRT ROS 節(jié)點(diǎn)使用 PyAudio 直接訪問麥克風(fēng),并在語音主題上發(fā)布識別出的語音。

68a129fc-a016-11ef-93f3-92fbcf53809c.png

圖 7. 通過將語音識別與 WhisperTRT 集成,實(shí)現(xiàn)自然的用戶交互全部整合

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    212

    文章

    29312

    瀏覽量

    211020
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5196

    瀏覽量

    105526
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    317

    瀏覽量

    652
  • 生成式AI
    +關(guān)注

    關(guān)注

    0

    文章

    524

    瀏覽量

    688

原文標(biāo)題:借助 ReMEmbR 利用生成式 AI 賦予機(jī)器人推理與行動能力

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    履帶機(jī)器人 金屬底盤

    ` 本帖最后由 威凱-智控 于 2012-8-14 23:28 編輯 今天給大家分享一個(gè)全金屬的履帶機(jī)器人底盤準(zhǔn)備最履帶機(jī)器人的朋友們,可以一起交流一下機(jī)器人瘋狂愛好者 讓思維沸騰起來 讓智慧
    發(fā)表于 08-14 23:25

    什么是工業(yè)機(jī)器人

    ` 本帖最后由 大連云港 于 2015-1-19 11:02 編輯 工業(yè)機(jī)器人是面向工業(yè)領(lǐng)域的多關(guān)節(jié)機(jī)械手或多自由度的機(jī)器人。工業(yè)機(jī)器人是自動執(zhí)行工作的機(jī)器裝置,是靠自身動力和控
    發(fā)表于 01-19 10:58

    機(jī)器人視覺——機(jī)器人的“眼睛”

    目前產(chǎn)業(yè)機(jī)器人僅能在嚴(yán)格定義的結(jié)構(gòu)化環(huán)境中執(zhí)行預(yù)定指令動作,缺乏對環(huán)境的感知與應(yīng)變能力,這極大地限制了機(jī)器人的應(yīng)用。利用機(jī)器人的視覺控制,不需要預(yù)先對產(chǎn)業(yè)
    發(fā)表于 01-23 15:02

    深度解析|機(jī)器人自主移動的秘密(三)

    。這里所需的基礎(chǔ)能力就是路徑規(guī)劃,也就是一般在完成SLAM后,要進(jìn)行一個(gè)叫做目標(biāo)點(diǎn)導(dǎo)航的能力。通俗的說,就是規(guī)劃一條從A點(diǎn)到B點(diǎn)的路徑出來,然后讓機(jī)器人移動過去。要實(shí)現(xiàn)這個(gè)過程,運(yùn)動規(guī)
    發(fā)表于 08-01 13:50

    六軸工業(yè)機(jī)器人的主要特點(diǎn)

    ,而且還具有記憶能力、語言理解能力、圖像識別能力推理判斷能力等人工智能,這些都是微電子技術(shù)的應(yīng)用,特別是計(jì)算機(jī)技術(shù)的應(yīng)用密切相關(guān)。六軸關(guān)節(jié)
    發(fā)表于 08-08 11:30

    六軸工業(yè)機(jī)器人控制方式

    `工業(yè)機(jī)器人是面向工業(yè)領(lǐng)域的多關(guān)節(jié)機(jī)械手或多自由度的機(jī)器裝置,它能自動執(zhí)行工作,是靠自身動力和控制能力實(shí)現(xiàn)各種功能的一種機(jī)器。它可以接受人
    發(fā)表于 08-09 16:30

    機(jī)器人想要實(shí)現(xiàn)智能移動,必須具備超強(qiáng)的自主定位導(dǎo)航能力

    特色功能,無需改變實(shí)際使用環(huán)境,且不受室內(nèi)信號影響,快速進(jìn)行自主行走導(dǎo)航,完成導(dǎo)航、導(dǎo)覽、迎賓等工作。家庭陪伴/養(yǎng)老院/教育家庭陪伴/養(yǎng)老/教育機(jī)器人,除了要擁有萌萌噠的外表、能說會唱、強(qiáng)大的互動能力
    發(fā)表于 01-03 11:41

    機(jī)器人正在快速進(jìn)入智能停車設(shè)備領(lǐng)域

    泊車機(jī)器人——pincer及柔性傳送式泊車機(jī)器人——belt。其中新型滾筒式泊車agv機(jī)器人更將以怡豐首字母“y”為運(yùn)動軌跡,演繹強(qiáng)大的地面適應(yīng)能力及360°的全方位運(yùn)
    發(fā)表于 11-28 16:20

    未來家庭的監(jiān)控機(jī)器人要具備什么特征?

    ,例如火警,地震,房子遭入侵的警報(bào),消防預(yù)警等等.4.監(jiān)控機(jī)器人要有行動能力,可在不同房間或樓層走動.5.單價(jià)要低.不能比計(jì)算機(jī)還貴.6.低階的機(jī)器人只需上述的功能,高階的機(jī)器人則需具
    發(fā)表于 10-30 02:25

    機(jī)器人核心技術(shù)之一的自主導(dǎo)航該如何實(shí)現(xiàn)

    人工智能和機(jī)器人領(lǐng)域著名的莫拉維克悖論表示:和傳統(tǒng)假設(shè)不同,對計(jì)算機(jī)而言,實(shí)現(xiàn)邏輯推理等人類高級智慧只需要相對很少的計(jì)算能力,而實(shí)現(xiàn)感知、運(yùn)
    發(fā)表于 08-20 07:31

    機(jī)器人簡介

    一.機(jī)器人簡介:機(jī)器人(Robot)是自動執(zhí)行工作的機(jī)器裝置。它既可以接受人類指揮,又可以運(yùn)行預(yù)先編排的程序,也可以根據(jù)以人工智能技術(shù)制定的原則綱領(lǐng)行動。它的任務(wù)是協(xié)助或取代人類工作的
    發(fā)表于 09-07 06:05

    水下機(jī)器人制作需要實(shí)現(xiàn)哪些功能呢

    工程訓(xùn)練綜合能力大賽——水下機(jī)器人管道巡檢組賽后總結(jié)前言一、水下機(jī)器人管道巡檢組內(nèi)容簡述二、功能實(shí)現(xiàn)1.巡檢管道2.識別吸附物總結(jié)前言前段時(shí)間參加了工程訓(xùn)練綜合
    發(fā)表于 01-11 06:51

    機(jī)器人是什么?

    或者一個(gè)吹管——任何有助于它工作的東西。圖5: 傳感器的表征圖像傳感器今天的大多數(shù)機(jī)器人幾乎是又聾又瞎。傳感器可以為機(jī)器人提供一些有限的反饋,使其能夠完成自己的工作。與最簡單的生物的感官和能力相比
    發(fā)表于 03-31 10:31

    機(jī)器人如何才能行動起來?

    近年來,隨著各行各業(yè)自動化需求的不斷釋放,機(jī)器人獲得了越來越多的廣泛應(yīng)用,而在眾多的應(yīng)用領(lǐng)域中,我們能發(fā)現(xiàn)具備行動能力機(jī)器人明顯偏多。不管是工業(yè)領(lǐng)域的AGV,物流領(lǐng)域的配送機(jī)器人,家
    發(fā)表于 10-21 11:22 ?3471次閱讀

    SLAM技術(shù)將賦予為機(jī)器人和智能體前所未有的行動能力

    SLAM技術(shù)將賦予為機(jī)器人和智能體前所未有的行動能力。作為當(dāng)前SLAM框架的主要類型,激光SLAM與視覺SLAM必將在相互競爭和融合中發(fā)展,必將帶來機(jī)器人技術(shù)和人工智能技術(shù)的真正革命,也將使得
    的頭像 發(fā)表于 05-25 09:43 ?4848次閱讀
    主站蜘蛛池模板: 在线亚洲成人 | 玖玖在线精品 | 一级毛片一级毛片一级毛片aa | 国产精品美女久久久久网 | 高颜值大长腿美女啪啪 | 欧美伊人网 | 天天射夜夜骑 | 日本黄色片在线播放 | 亚洲五月六月丁香激情 | 农村妇女高清毛片一级 | 久久www成人看片 | 日本黄大乳片免费观看 | 一级a爱片久久毛片 | 在线色站| 极品国产一区二区三区 | 三级五月天 | 国产91色综合久久免费分享 | 欧美一级高清片在线 | 久久水蜜桃网 | 亚洲成在人线影视天堂网 | 免费男女| 久久综合丁香 | 女人被狂躁视频网站免费 | 四虎影院视频在线观看 | 色天使久久 | se97se成人亚洲网站 | 99婷婷| 中文字幕在线观看一区 | 在线免费国产视频 | 国产女同视频 | 一女被两男吃奶玩乳尖口述 | 可以免费看黄色的网站 | 免费一级欧美片片线观看 | 欧美爽爽网 | 亚洲国产精品综合久久网络 | 97人人模人人揉人人捏 | 国产深夜福利在线观看网站 | 五月婷婷丁香在线视频 | 国产精品免费拍拍1000部 | 国产美女亚洲精品久久久久久 | 国产va在线 |