在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于視覺(jué)語(yǔ)言模型的導(dǎo)航框架VLMnav

INDEMIND ? 來(lái)源:INDEMIND ? 2024-11-22 09:42 ? 次閱讀

本文提出了一種將視覺(jué)語(yǔ)言模型(VLM)轉(zhuǎn)換為端到端導(dǎo)航策略的具體框架。不依賴于感知、規(guī)劃和控制之間的分離,而是使用VLM在一步中直接選擇動(dòng)作。驚訝的是,我們發(fā)現(xiàn)VLM可以作為一種無(wú)需任何微調(diào)或?qū)Ш綌?shù)據(jù)的端到端策略來(lái)使用。這使得該方法具有開(kāi)放性和可適用于任何下游導(dǎo)航任務(wù)的通用性。

01本文核心內(nèi)容

導(dǎo)航問(wèn)題的很大一部分涉及到與回答長(zhǎng)上下文圖像和視頻問(wèn)題所需的類似認(rèn)知過(guò)程,這正是當(dāng)代視覺(jué)語(yǔ)言模型(VLMs)擅長(zhǎng)的領(lǐng)域。然而,當(dāng)這些模型被直接應(yīng)用于導(dǎo)航任務(wù)時(shí),局限性便顯現(xiàn)出來(lái)。具體而言,當(dāng)給定一個(gè)與觀察-動(dòng)作歷史相結(jié)合的任務(wù)描述時(shí),VLMs 常常難以生成精細(xì)的空間輸出以避開(kāi)障礙物,并且無(wú)法有效利用其長(zhǎng)上下文推理能力來(lái)支持有效的導(dǎo)航。

為應(yīng)對(duì)這些挑戰(zhàn),先前的工作將VLMs作為模塊化系統(tǒng)的一個(gè)組成部分,以執(zhí)行高級(jí)推理和識(shí)別任務(wù)。這些系統(tǒng)通常包含一個(gè)明確的3D映射模塊和一個(gè)規(guī)劃器來(lái)處理任務(wù)中更具實(shí)體性的部分,例如運(yùn)動(dòng)和探索。雖然模塊化具有讓每個(gè)組件僅用于其擅長(zhǎng)的子任務(wù)的優(yōu)勢(shì),但也帶來(lái)了系統(tǒng)復(fù)雜性和任務(wù)專業(yè)化的劣勢(shì)。

在本研究中,我們表明,現(xiàn)成的VLM可用作零樣本和端到端的語(yǔ)言條件導(dǎo)航策略。實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵思路是將導(dǎo)航問(wèn)題轉(zhuǎn)化為VLM擅長(zhǎng)的事情:回答有關(guān)圖像的問(wèn)題。

為此,我們開(kāi)發(fā)了一種新穎的提示策略,使VLM能夠明確考慮探索和避障問(wèn)題。這種提示具有通用性,即它可用于任何基于視覺(jué)的導(dǎo)航任務(wù)。

與先前的方法相比,我們未使用特定模態(tài)的experts,未訓(xùn)練任何特定領(lǐng)域的模型,也未假定能夠獲取模型的概率。

我們?cè)谝汛_立的具身導(dǎo)航基準(zhǔn)上對(duì)我們的方法進(jìn)行了評(píng)估,結(jié)果表明,與現(xiàn)有的提示方法相比,我們的方法顯著提高了導(dǎo)航性能。

02相關(guān)工作

最常見(jiàn)的學(xué)習(xí)端到端導(dǎo)航策略的方法是利用離線數(shù)據(jù)集從頭訓(xùn)練模型。然而,大規(guī)模導(dǎo)航數(shù)據(jù)的收集頗具挑戰(zhàn),以致這些模型在推廣至新任務(wù)或分布外環(huán)境時(shí)往往表現(xiàn)不佳。

另一種增強(qiáng)泛化能力的途徑是利用機(jī)器人特定數(shù)據(jù)對(duì)現(xiàn)有的視覺(jué)語(yǔ)言模型進(jìn)行微調(diào)。盡管此方法能生成更穩(wěn)健的端到端策略,但微調(diào)可能會(huì)破壞微調(diào)數(shù)據(jù)集中未涵蓋的特征,最終限制模型的泛化能力。

還有一種研究方向側(cè)重于零樣本使用這些模型,通過(guò)提示使模型的響應(yīng)與任務(wù)規(guī)范相符。例如,使用CLIP或DETIC特征將視覺(jué)觀測(cè)與語(yǔ)言目標(biāo)對(duì)齊,構(gòu)建環(huán)境的語(yǔ)義地圖,并采用傳統(tǒng)方法進(jìn)行規(guī)劃。其他研究工作設(shè)計(jì)了特定模塊來(lái)處理探索任務(wù)。這些系統(tǒng)通常需要對(duì)置信度進(jìn)行估計(jì),以知曉何時(shí)停止探索,這通常通過(guò)使用令牌或?qū)ο蟾怕蕘?lái)實(shí)現(xiàn)。此外,許多此類方法還采用了低級(jí)導(dǎo)航模塊,將動(dòng)作選擇抽象為諸如快速行進(jìn)法之類的預(yù)訓(xùn)練點(diǎn)到點(diǎn)策略。

視覺(jué)提示方法:為了提升VLMs的任務(wù)特定性能,近期的工作包括在將圖像傳遞給VLMs之前對(duì)其進(jìn)行物理修改。

為具身導(dǎo)航提示VLMs:CoNVOI在圖像上覆蓋數(shù)字標(biāo)記,并提示VLMs輸出與上下文線索(例如,留在人行道上)一致的這些標(biāo)記序列,將其用作導(dǎo)航路徑。與我們的工作不同,它們(i)依賴低級(jí)規(guī)劃器來(lái)避開(kāi)障礙物,而非直接將VLMs的輸出作為導(dǎo)航動(dòng)作;(ii)未利用VLMs引導(dǎo)代理朝向特定目標(biāo)位置。PIVOT引入了一種與我們最為相似的視覺(jué)提示方法。他們通過(guò)將單步動(dòng)作表示為指向圖像上帶標(biāo)簽圓圈的箭頭來(lái)處理導(dǎo)航問(wèn)題。在每個(gè)步驟中,從各向同性的高斯分布中采樣動(dòng)作,其均值和方差根據(jù)VLMs的反饋迭代更新。在優(yōu)化分布后選擇最終動(dòng)作。雖然PIVOT能夠處理各種現(xiàn)實(shí)世界的導(dǎo)航和操作任務(wù),但它有兩個(gè)顯著缺陷:(i)未納入深度信息來(lái)評(píng)估動(dòng)作提議的可行性,導(dǎo)致移動(dòng)效率較低;(ii)選擇單個(gè)動(dòng)作需要多次調(diào)用VLMs,導(dǎo)致較高的計(jì)算成本和延遲。

03方法架構(gòu)

我們提出了VLMnav,這一導(dǎo)航系統(tǒng)將目標(biāo)G(可以用語(yǔ)言或圖像來(lái)指定)、RGB-D圖像I、姿態(tài)ξ作為輸入,并隨后輸出動(dòng)作a。動(dòng)作空間由機(jī)器人框架中繞偏航軸的旋轉(zhuǎn)和沿前軸的位移組成,使得所有動(dòng)作都能以極坐標(biāo)來(lái)表示。由于已知VLM在處理連續(xù)坐標(biāo)時(shí)存在困難,我們轉(zhuǎn)而將導(dǎo)航問(wèn)題轉(zhuǎn)換為從一組離散選項(xiàng)中選擇動(dòng)作。我們的核心思路是以避免障礙物碰撞并促進(jìn)探索的方式來(lái)選擇這些動(dòng)作選項(xiàng)。

我們首先通過(guò)使用深度圖像來(lái)估計(jì)障礙物的距離,從而確定局部區(qū)域的可通行性。我們利用深度圖像和姿態(tài)信息來(lái)維持場(chǎng)景的自上而下的體素地圖,并顯著地將體素標(biāo)記為已探索或未探索。這樣的地圖由動(dòng)作提議器使用,以確定一組避免障礙物并促進(jìn)探索的動(dòng)作。然后,通過(guò)投影組件將這組可能的動(dòng)作投影到第一人稱視角的RGB圖像上。最后,VLM接收此圖像和精心設(shè)計(jì)的提示作為輸入,以選擇一個(gè)動(dòng)作,由代理執(zhí)行。為確定情節(jié)的終止,我們使用一個(gè)單獨(dú)的VLM調(diào)用。

04實(shí)驗(yàn)

我們?cè)趦蓚€(gè)廣受歡迎的具身導(dǎo)航基準(zhǔn)測(cè)試ObjectNav和GoatBench上對(duì)我們的方法進(jìn)行了評(píng)估,這兩個(gè)基準(zhǔn)測(cè)試均使用了來(lái)自Habitat-Matterport3D數(shù)據(jù)集的場(chǎng)景。此外,我們還分析了端到端VLM智能體的性能如何隨設(shè)計(jì)參數(shù)的變化而改變,例如視場(chǎng)、用于提示模型的上下文歷史長(zhǎng)度以及深度感知的質(zhì)量。

設(shè)置:智能體采用半徑為0.17米、高度為1.5米的圓柱體形狀。我們?yōu)橹悄荏w配備了一個(gè)以自我為中心的RGB-D傳感器,其分辨率為(1080,1920),水平視場(chǎng)角(FOV)為131°。攝像頭像中那樣向下傾斜25°,有助于確定可導(dǎo)航性。考慮到其成本低且效果好,我們?cè)谒袑?shí)驗(yàn)中均使用GeminiFlash作為VLM。

指標(biāo):與之前的工作相同,我們使用以下指標(biāo):(i)成功率(SR):成功完成的情節(jié)所占的比例;(ii)成功率加權(quán)逆路徑長(zhǎng)度(SPL):路徑效率的衡量指標(biāo)。

基線:我們使用PIVOT作為基線,因?yàn)樗c我們的方法最為相似。為研究我們的動(dòng)作選擇方法的影響,我們將其剔除,評(píng)估“Oursw/onav”:與我們的方法相同,但不含可導(dǎo)航性和動(dòng)作提議器組件。此基線的動(dòng)作選擇是一組靜態(tài)的、等距分布的動(dòng)作選擇,包括轉(zhuǎn)身動(dòng)作。值得注意的是,這些動(dòng)作未考慮可導(dǎo)航性或探索。為進(jìn)一步評(píng)估視覺(jué)注釋的影響,我們還評(píng)估了基線“PromptOnly”,它能看到以文本描述的動(dòng)作(“轉(zhuǎn)身”、“向右轉(zhuǎn)”、“向前移動(dòng)”等),但沒(méi)有視覺(jué)注釋。這些不同的提示基線可在圖5中可視化。

05總結(jié)

在這項(xiàng)工作中,我們提出了VLMnav,這是一種新穎的視覺(jué)提示工程方法,能夠使現(xiàn)成的VLM充當(dāng)端到端的導(dǎo)航策略。該方法背后的主要思路是精心挑選動(dòng)作提議并將其投射到圖像上,有效地將導(dǎo)航問(wèn)題轉(zhuǎn)化為問(wèn)答問(wèn)題。通過(guò)在ObjectNav和GOAT基準(zhǔn)上的評(píng)估,我們發(fā)現(xiàn)其性能相較于迭代基線PIVOT(在視覺(jué)導(dǎo)航提示工程方面先前的最先進(jìn)水平)有了顯著提升。我們的設(shè)計(jì)研究進(jìn)一步凸顯了寬視場(chǎng)的重要性以及僅使用RGB圖像來(lái)部署我們的方法的可能性。

我們的方法存在一些局限性。禁用“允許滑動(dòng)”參數(shù)后性能的大幅下降表明存在多次與障礙物的碰撞,這在實(shí)際部署中可能會(huì)成為問(wèn)題。此外,我們發(fā)現(xiàn)像[A benchmark for multi-modal lifelongnavigation]這樣的專用系統(tǒng)表現(xiàn)優(yōu)于我們的工作。然而,隨著VLM能力的不斷提高,該方法或能夠幫助未來(lái)的VLM在具身任務(wù)中達(dá)到或超越專用系統(tǒng)的性能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 導(dǎo)航
    +關(guān)注

    關(guān)注

    7

    文章

    547

    瀏覽量

    43011
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    558

    瀏覽量

    10674
  • 深度圖像
    +關(guān)注

    關(guān)注

    0

    文章

    19

    瀏覽量

    3588

原文標(biāo)題:實(shí)現(xiàn)端到端導(dǎo)航!基于視覺(jué)語(yǔ)言模型的導(dǎo)航框架VLMnav

文章出處:【微信號(hào):gh_c87a2bc99401,微信公眾號(hào):INDEMIND】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何利用Transformers了解視覺(jué)語(yǔ)言模型

    模型稱為 “視覺(jué)語(yǔ)言模型是什么意思?一個(gè)結(jié)合了視覺(jué)語(yǔ)言模態(tài)的
    發(fā)表于 03-03 09:49 ?1259次閱讀
    如何利用Transformers了解<b class='flag-5'>視覺(jué)</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    【大語(yǔ)言模型:原理與工程實(shí)踐】大語(yǔ)言模型的評(píng)測(cè)

    計(jì)算和代碼糾錯(cuò)等。這些場(chǎng)景覆蓋日常生活和學(xué)習(xí)的多個(gè)方面,使得對(duì)話能力評(píng)測(cè)變得尤為復(fù)雜和關(guān)鍵。為了全面評(píng)估大語(yǔ)言模型在各種應(yīng)用場(chǎng)景下的對(duì)話能力,研究人員和使用者需要一套綜合性的評(píng)測(cè)框架。該框架
    發(fā)表于 05-07 17:12

    基于視覺(jué)自動(dòng)導(dǎo)航車的物資搬運(yùn)系統(tǒng)設(shè)計(jì)

    通過(guò)對(duì)基于視覺(jué)的自動(dòng)導(dǎo)航車(AGV)設(shè)計(jì)方法的研究,提出了應(yīng)用自動(dòng)導(dǎo)航車設(shè)計(jì)物資搬運(yùn)系統(tǒng)的框架結(jié)構(gòu)。系統(tǒng)利用無(wú)線收發(fā)模塊進(jìn)行主從工作站間的實(shí)時(shí)無(wú)線通訊,利用CCD 攝像
    發(fā)表于 06-18 09:34 ?27次下載

    視覺(jué)導(dǎo)航技術(shù)的詳細(xì)資料概述

    概述了視覺(jué)導(dǎo)航技術(shù)。視覺(jué)導(dǎo)航依據(jù)視覺(jué)圖像,利用圖像處理、計(jì)算機(jī)視覺(jué)
    發(fā)表于 08-04 17:02 ?8次下載
    <b class='flag-5'>視覺(jué)</b><b class='flag-5'>導(dǎo)航</b>技術(shù)的詳細(xì)資料概述

    視覺(jué)信號(hào)輔助的自然語(yǔ)言文法學(xué)習(xí)

    提出了視覺(jué)信號(hào)輔助下的概率文法的通用學(xué)習(xí)框架。 該框架依賴于概率文法模型(Probabilistic Context-Free Grammars),具有端到端學(xué)習(xí)、完全可微的優(yōu)點(diǎn)。其次
    的頭像 發(fā)表于 01-05 14:14 ?2357次閱讀
    <b class='flag-5'>視覺(jué)</b>信號(hào)輔助的自然<b class='flag-5'>語(yǔ)言</b>文法學(xué)習(xí)

    微軟視覺(jué)語(yǔ)言模型有顯著超越人類的表現(xiàn)

    視覺(jué)語(yǔ)言(Vision-Language,VL)系統(tǒng)允許為文本查詢搜索相關(guān)圖像(或反之),并使用自然語(yǔ)言描述圖像的內(nèi)容。一般來(lái)說(shuō),一個(gè)VL系統(tǒng)使用一個(gè)圖像編碼模塊和一個(gè)視覺(jué)
    的頭像 發(fā)表于 01-19 14:32 ?1808次閱讀

    可同步目標(biāo)導(dǎo)向行為和記憶空間結(jié)構(gòu)的視覺(jué)導(dǎo)航方法

    框架,同時(shí)添加碰撞預(yù)測(cè)作為模型輔助仼務(wù);然后,在智能體學(xué)刁導(dǎo)航過(guò)程中,利用時(shí)間相關(guān)性網(wǎng)絡(luò)祛除冗余觀測(cè)及尋找導(dǎo)航節(jié)點(diǎn),實(shí)現(xiàn)通過(guò)情景記憶遞増描述環(huán)境結(jié)構(gòu);最后,將空間拓?fù)涞貓D作為路徑規(guī)劃模
    發(fā)表于 03-24 14:36 ?11次下載
    可同步目標(biāo)導(dǎo)向行為和記憶空間結(jié)構(gòu)的<b class='flag-5'>視覺(jué)</b><b class='flag-5'>導(dǎo)航</b>方法

    超大Transformer語(yǔ)言模型的分布式訓(xùn)練框架

    NVIDIA Megatron 是一個(gè)基于 PyTorch 的框架,用于訓(xùn)練基于 Transformer 架構(gòu)的巨型語(yǔ)言模型。本系列文章將詳細(xì)介紹Megatron的設(shè)計(jì)和實(shí)踐,探索這一框架
    的頭像 發(fā)表于 10-11 16:46 ?3159次閱讀
    超大Transformer<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>的分布式訓(xùn)練<b class='flag-5'>框架</b>

    探究超大Transformer語(yǔ)言模型的分布式訓(xùn)練框架

    NVIDIA Megatron 是一個(gè)基于 PyTorch 的框架,用于訓(xùn)練基于 Transformer 架構(gòu)的巨型語(yǔ)言模型。本系列文章將詳細(xì)介紹Megatron的設(shè)計(jì)和實(shí)踐,探索這一框架
    的頭像 發(fā)表于 10-20 09:25 ?2757次閱讀

    視覺(jué)語(yǔ)言導(dǎo)航領(lǐng)域任務(wù)、方法和未來(lái)方向的綜述

    視覺(jué)語(yǔ)言導(dǎo)航(VLN)是一個(gè)新興的研究領(lǐng)域,旨在構(gòu)建一種可以用自然語(yǔ)言與人類交流并在真實(shí)的3D環(huán)境中導(dǎo)航的具身代理,與計(jì)算機(jī)
    的頭像 發(fā)表于 09-20 14:30 ?5392次閱讀

    機(jī)器人基于開(kāi)源的多模態(tài)語(yǔ)言視覺(jué)模型

    ByteDance Research 基于開(kāi)源的多模態(tài)語(yǔ)言視覺(jué)模型 OpenFlamingo 開(kāi)發(fā)了開(kāi)源、易用的 RoboFlamingo 機(jī)器人操作模型,只用單機(jī)就可以訓(xùn)練。
    發(fā)表于 01-19 11:43 ?608次閱讀
    機(jī)器人基于開(kāi)源的多模態(tài)<b class='flag-5'>語(yǔ)言</b><b class='flag-5'>視覺(jué)</b>大<b class='flag-5'>模型</b>

    語(yǔ)言模型開(kāi)發(fā)框架是什么

    語(yǔ)言模型開(kāi)發(fā)框架是指用于訓(xùn)練、推理和部署大型語(yǔ)言模型的軟件工具和庫(kù)。下面,AI部落小編為您介紹大語(yǔ)言
    的頭像 發(fā)表于 12-06 10:28 ?464次閱讀

    NaVILA:加州大學(xué)與英偉達(dá)聯(lián)合發(fā)布新型視覺(jué)語(yǔ)言模型

    日前,加州大學(xué)的研究人員攜手英偉達(dá),共同推出了一款創(chuàng)新的視覺(jué)語(yǔ)言模型——NaVILA。該模型在機(jī)器人導(dǎo)航領(lǐng)域展現(xiàn)出了獨(dú)特的應(yīng)用潛力,為智能機(jī)
    的頭像 發(fā)表于 12-13 10:51 ?608次閱讀

    一文詳解視覺(jué)語(yǔ)言模型

    視覺(jué)語(yǔ)言模型(VLM)是一種多模態(tài)、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發(fā)表于 02-12 11:13 ?1495次閱讀
    一文詳解<b class='flag-5'>視覺(jué)</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    視覺(jué)語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(jué)(圖像/視頻)和語(yǔ)言(文本)處理能力的多模態(tài)人工智能
    的頭像 發(fā)表于 03-17 15:32 ?2738次閱讀
    ?VLM(<b class='flag-5'>視覺(jué)</b><b class='flag-5'>語(yǔ)言</b><b class='flag-5'>模型</b>)?詳細(xì)解析
    主站蜘蛛池模板: 在线免费看黄 | 天堂在线观看中文字幕 | 永久免费品色堂 | 四虎影免看黄 | 久久国产精品网 | 免费的毛片| 免费看欧美理论片在线 | 欧美一级黄视频 | 伊人色强在线网 | 天天色图 | 日本视频一区在线观看免费 | 手机看片中文字幕 | 大黄网站色多多 | 色五丁香 | 国产精品免费看久久久香蕉 | 亚洲一区在线播放 | 国产主播在线观看 | 亚洲精品一线二线三线 | 韩国三级观影久久 | 在线免费看黄的网站 | 亚洲色图在线播放 | 免费的三及片 | 高h道具触手play肉男男 | 色视频免费观看 | 亚州人成网在线播放 | 日本在线观看高清不卡免v 日本在线观看永久免费网站 | 韩国三级视频在线 | 曰曰摸天天摸人人看久久久 | 涩久久| 丝袜美女被| 在线观看亚洲免费视频 | 中文字幕一区二区三区在线播放 | 黄色网址在线播放 | 777色狠狠一区二区三区香蕉 | 77ee成人 | 一级特黄aaa大片29 | 女人张开腿男人桶 | 三级黄色免费 | 日本在线看小视频网址 | 免费大秀视频在线播放 | 欧美高清一级 |