在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

視覺語言導(dǎo)航領(lǐng)域任務(wù)、方法和未來方向的綜述

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2022-09-20 14:30 ? 次閱讀

視覺語言導(dǎo)航(VLN)是一個新興的研究領(lǐng)域,旨在構(gòu)建一種可以用自然語言與人類交流并在真實的3D環(huán)境中導(dǎo)航的具身代理,與計算機視覺、自然語言處理和機器人等研究領(lǐng)域緊密關(guān)聯(lián)。視覺語言導(dǎo)航任務(wù)要求構(gòu)建的具身代理能夠根據(jù)語言指令推理出導(dǎo)航路徑,然而,稀疏的語言指令數(shù)據(jù)集限制著導(dǎo)航模型的性能,研究者們又提出了一些能夠根據(jù)導(dǎo)航路徑輸出接近于人類標(biāo)注質(zhì)量的語言指令的模型。

本次DISC小編將分享ACL2022和CVPR2022的三篇論文,第一篇論文是一篇綜述,第二篇論文提出了一種監(jiān)督把控當(dāng)前導(dǎo)航進程的方法,第三篇文章提出了一套根據(jù)導(dǎo)航路徑自動生成描述這條路徑的語言指令的方法。

文章概覽

1.視覺語言導(dǎo)航:任務(wù)、方法和未來方向的綜述(Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions)

本文從任務(wù)、評價指標(biāo)、方法等方面回顧了當(dāng)前視覺語言導(dǎo)航研究的進展,并介紹了當(dāng)前VLN研究的局限性和未來工作的機會。視覺語言導(dǎo)航有很多任務(wù)集,難度和任務(wù)設(shè)定各異,視覺語言導(dǎo)航也涉及許多機器學(xué)習(xí)相關(guān)的模型方法,本文對當(dāng)前的一些VLN數(shù)據(jù)集和經(jīng)典方法作了分類介紹。通過閱讀本文,可以對視覺語言導(dǎo)航領(lǐng)域有一個總體的了解。

2.一次一步:擁有里程碑的長視界視覺語言導(dǎo)航(One Step at a Time: Long-Horizon Vision-and-Language Navigation with Milestones)

當(dāng)面對長視界視覺語言導(dǎo)航任務(wù)時,代理很容易忽視部分指令或者困在一個長指令的中間部分。為了解決上述問題,本文設(shè)計了一個模型無關(guān)的基于里程碑(milestone)的任務(wù)跟蹤器(milestone-based task tracker,M-TRACK)來指引代理并模擬其進程。任務(wù)跟蹤器包含里程碑生成器(milestone builder)和里程碑檢查器(milestone tracker)。在ALFRED數(shù)據(jù)集上,本文的M-TRACK方法應(yīng)用在兩個經(jīng)典模型上分別提升了33%和52%的未知環(huán)境中成功率。

3.少即是多:從地標(biāo)生成對齊的語言指令(Less is More: Generating Grounded Navigation Instructions from Landmarks)

本文研究了從360°室內(nèi)全景圖自動生成導(dǎo)航指令。現(xiàn)存的語言指令生成器往往擁有較差的視覺對齊,這導(dǎo)致了生成指令的過程主要依賴于語言先驗和虛幻的物體。本文提出的MARKY-MT5系統(tǒng)利用視線中的地標(biāo)來解決這個問題,該系統(tǒng)包含地標(biāo)檢測器和指令生成器兩個部分。在R2R數(shù)據(jù)集上,人類尋路員根據(jù)人類標(biāo)注指令尋找導(dǎo)航路徑的成功率為75%,而根據(jù)MARKY-MT5生成的指令尋找導(dǎo)航路徑的成功率仍然有71%,且該指標(biāo)遠高于根據(jù)其它生成器生成的指令尋找導(dǎo)航路徑的成功率。

動機

近年來,視覺語言導(dǎo)航領(lǐng)域飛速發(fā)展,越來越多的導(dǎo)航數(shù)據(jù)集涌現(xiàn),針對不同設(shè)定的任務(wù)數(shù)據(jù)集,研究者們也設(shè)計了許多評測指標(biāo),不同的研究社區(qū)也在VLN領(lǐng)域提出多種多樣的模型方法。本文希望對當(dāng)前現(xiàn)有的一些任務(wù)數(shù)據(jù)集和VLN方法進行總結(jié)分類,為未來VLN研究方向提出一些建議,希望能夠為VLN研究社區(qū)提供一個詳盡的參考。

任務(wù)和數(shù)據(jù)集

導(dǎo)航代理解釋自然語言指令的能力使得VLN有別于視覺導(dǎo)航。本文根據(jù)交流復(fù)雜度和任務(wù)目標(biāo)難度兩個維度來對現(xiàn)有的VLN數(shù)據(jù)集分類,如表1所示。

5b8b01c8-3896-11ed-ba43-dac502259ad0.png

表1:根據(jù)交流復(fù)雜度和任務(wù)目標(biāo)劃分的視覺語言導(dǎo)航基準(zhǔn)。

交流復(fù)雜度定義了代理與oracle對話的級別,本文劃分了三個復(fù)雜程度遞增的級別:①代理只需要在導(dǎo)航開始前理解一個初始指標(biāo);②代理在不確定時可以發(fā)送一個信號請求幫助,繼而根據(jù)oracle的指引完成任務(wù);③擁有對話能力的代理在導(dǎo)航期間可以通過自然語言的形式詢問問題并理解oracle的答復(fù)。

任務(wù)目標(biāo)定義代理如何根據(jù)來自oracle的初始指令實現(xiàn)其目標(biāo),本文劃分了三個難度遞增的級別:①細粒度導(dǎo)航,代理可以根據(jù)一條詳細的逐步的路徑描述來找到目標(biāo);②粗粒度導(dǎo)航,代理需要根據(jù)一條粗略的路徑描述來找到一個距離遙遠的目標(biāo),代理可能需要得到oracle的一些幫助;③導(dǎo)航和物體交互,代理除了推理出一條行進路徑,也需要操作環(huán)境中的物體。

評測指標(biāo)

面向目標(biāo)的指標(biāo)主要關(guān)注代理和目標(biāo)的接近程度。其中最自然的指標(biāo)是成功率(Success Rate),它衡量代理成功完成任務(wù)的頻率,距離目標(biāo)一定范圍內(nèi)即算成功。目標(biāo)進程(Goal Progress)衡量距離目標(biāo)剩余距離的減少。路徑長度(Path Length)衡量導(dǎo)航路徑的總長度。最短路徑距離(Shortest-Path Distance)衡量代理的最終位置與目標(biāo)之間的平均距離。路徑加權(quán)成功率(Success weighted by Path Length)同時考慮成功率和路徑長度,因為過長路徑的成功導(dǎo)航是不被期望的。Oracle導(dǎo)航誤差(Oracle Navigation Error)衡量路徑上最接近目標(biāo)的點到目標(biāo)的距離。Oracle成功率(Oracle Success Rate)衡量路徑上最接近目標(biāo)的點到目標(biāo)的距離是否在一個閾值內(nèi)。

路徑精確度的指標(biāo)評估一個代理在多大程度上遵循期望的路徑。有些任務(wù)要求代理不僅要找到目標(biāo)位置,還要遵循特定的路徑。精確性的衡量的是專家演示中的動作序列與智能體軌跡中的動作序列之間的匹配程度。長度分?jǐn)?shù)加權(quán)的覆蓋(Coverage weighted by LS)由路徑覆蓋(Path Coverage)和長度分?jǐn)?shù)(Length Score)相乘得到,其衡量代理路徑和參考路徑的接近程度。歸一化動態(tài)時間規(guī)整(Normalized Dynamic Time Warping)懲罰偏離參考路徑的偏差,以計算兩條路徑之間的匹配。歸一化動態(tài)時間規(guī)則加權(quán)的成功(Success weighted by normalized Dynamic Time Warping)則進一步將nDTW限制為僅成功的片段,以同時衡量成功和精確度。

VLN方法

如圖1所示,本文將現(xiàn)存的VLN方法大致分類為表示學(xué)習(xí)、動作決策學(xué)習(xí)、數(shù)據(jù)中心學(xué)習(xí)、提前探索等。表示學(xué)習(xí)主要幫助代理理解多模態(tài)的輸入(視覺、語言、動作)及其之間的關(guān)系。由于導(dǎo)航依賴?yán)鄯e的動作序列,動作決策學(xué)習(xí)可以幫助代理做出更好的決策。另外,VLN任務(wù)的數(shù)據(jù)集仍然不夠大,收集VLN訓(xùn)練數(shù)據(jù)是昂貴且耗時的。因此,數(shù)據(jù)中心方法利用現(xiàn)有數(shù)據(jù)集,創(chuàng)造更多盡可能高質(zhì)量的訓(xùn)練數(shù)據(jù),提升模型表現(xiàn)。提前探索可以幫助代理適應(yīng)事先未見過的環(huán)境,提升代理泛化能力,降低代理在已知環(huán)境和未知環(huán)境中的表現(xiàn)差距。

5bc9fdb0-3896-11ed-ba43-dac502259ad0.png

圖1:VLN方法分類。各方法間可能有交集。

表示學(xué)習(xí)

視覺語言預(yù)訓(xùn)練模型可以提供好的文本和視覺聯(lián)合表示,使得代理更好地兼顧理解語言指令和環(huán)境觀察。研究者也探索專屬于VLN領(lǐng)域的預(yù)訓(xùn)練,采用VLN領(lǐng)域特定的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)和針對VLN任務(wù)設(shè)計的特定預(yù)訓(xùn)練任務(wù),如PREVALENT、Airbert等。

語義理解可以獲取VLN任務(wù)中重要特征的知識,同時高層語義表示也能提升代理在未知環(huán)境中的表現(xiàn)。語義理解包括模態(tài)內(nèi)和模態(tài)間的語義理解。

圖表示可以抽取獲得語言指令和環(huán)境觀察中的結(jié)構(gòu)化知識,這為導(dǎo)航提供了顯式的語義關(guān)系。圖可以編碼文本和視覺之間的關(guān)系,記錄導(dǎo)航過程中的位置信息等。

記憶結(jié)構(gòu)可以幫助代理高效地利用逐漸累積的導(dǎo)航歷史信息。有些方法利用記憶單元,如LSTM、循環(huán)的信息狀態(tài)等;有些方法建立一個獨立的記憶模型來存儲相關(guān)信息。

輔助任務(wù)在不需要額外標(biāo)簽的情況下幫助代理更好地理解環(huán)境和其自身所處的狀態(tài),這往往需要引進額外的損失函數(shù)。一般的輔助任務(wù)有解釋其先前的動作、預(yù)測未來決策的信息、預(yù)測當(dāng)前任務(wù)的完成狀態(tài)和視覺文本的匹配程度等。

動作決策學(xué)習(xí)

VLN是一個動作序列決策問題并且可以被建模成一個馬爾科夫決策過程。所以強化學(xué)習(xí)方法可以使代理學(xué)得更好的策略。一個應(yīng)用強化學(xué)習(xí)的難點在于很難知道一個動作對最終任務(wù)完成的貢獻程度,因此無法決定獎勵或懲罰。對此,人們提出了RCM模型和利用指令和關(guān)鍵地標(biāo)之間的局部對齊作為獎勵等方法。

邊導(dǎo)航邊探索可以使代理對狀態(tài)空間有一個更好的了解。探索和開發(fā)之間存在一個權(quán)衡,隨著更多的探索,代理以更長的路徑和更長的導(dǎo)航時間為代價獲得了更好的表現(xiàn),因此代理需要決定探索的時間和深度。

導(dǎo)航規(guī)劃會帶來更好的行動策略,從視覺角度來看,預(yù)測路徑點、下一個狀態(tài)和獎勵、生成未來的觀察結(jié)果和整合鄰居視圖都已經(jīng)被證明是有效的。

代理在不確定下一個動作時可以詢問幫助,可以利用動作概率分布或者獨立訓(xùn)練的模型來決定是否詢問,詢問方式可以是發(fā)送一個信號或者使用自然語言。

數(shù)據(jù)中心學(xué)習(xí)

VLN領(lǐng)域的數(shù)據(jù)增強主要包含路徑指令對增強和環(huán)境增強。擴增的路徑指令對可以直接作為額外的訓(xùn)練樣本。生成更多的環(huán)境數(shù)據(jù)不僅幫助擴增路徑樣本,還可以避免在已知環(huán)境中的過擬合問題,生成額外環(huán)境數(shù)據(jù)一般采用隨機遮蓋不同視點的相同視覺特征。

課程學(xué)習(xí)的大致思想是在訓(xùn)練過程中逐漸增大任務(wù)的難度,即先用低難度的樣本訓(xùn)練代理。

多任務(wù)學(xué)習(xí)引入不同的VLN任務(wù)進行訓(xùn)練,促進跨任務(wù)知識轉(zhuǎn)移。

對一條語言指令進行多次不同的指令解釋可以使代理更好地理解其目標(biāo)。

提前探索

提前探索方法允許代理去觀察和適應(yīng)未知環(huán)境,從而縮小已知和未知環(huán)境中的表現(xiàn)差距。一些經(jīng)典方法有利用測試環(huán)境來取樣和擴增路徑樣本來適應(yīng)未知環(huán)境、利用圖結(jié)構(gòu)來提前建立未知環(huán)境的信息概況等。

未來方向

鑒于現(xiàn)在的任務(wù)設(shè)定在環(huán)境中都只有一個代理,未來可以關(guān)注多代理協(xié)作的視覺語言導(dǎo)航任務(wù);其次,希望未來的任務(wù)研究更貼合現(xiàn)實情況,比如環(huán)境中可能會有人類在改變環(huán)境的狀態(tài),而不是只有導(dǎo)航代理的存在;另外,希望視覺語言導(dǎo)航任務(wù)的研究能關(guān)注到數(shù)據(jù)隱私和道德的問題;最后,由于當(dāng)前的訓(xùn)練數(shù)據(jù)集基本來自于歐美國家,訓(xùn)練多文化的代理也是重要的。

5beaf754-3896-11ed-ba43-dac502259ad0.png

動機

近些年,許多VLN模型取得了巨大的成功,尤其是在短視界(short-horizon)問題上。但當(dāng)面對到擁有很長動作序列的長視界(long-horizon)問題時,許多模型的表現(xiàn)仍然讓人不夠滿意。具體來說,本文作者觀察到在一些實驗中,代理會跳過部分子任務(wù)不做或者在一個已完成的子任務(wù)內(nèi)原地徘徊而無法去執(zhí)行下一個子任務(wù),這些都說明代理在處理長序列任務(wù)時,缺乏對其所處進程的認(rèn)識。本文嘗試構(gòu)建里程碑(milestone)來模擬任務(wù)進程進度,設(shè)計了任務(wù)跟蹤器M-TRACK。

M-TRACK方法

本文設(shè)計任務(wù)跟蹤器(M-TRACK),它在子任務(wù)中跟蹤任務(wù)進度,只有代理達到一個子任務(wù)的里程碑時才能進入下一個子任務(wù)。M-TRACK包含里程碑生成器(milestone builder)和里程碑檢查器(milestone checker)。里程碑生成器將指令劃分為導(dǎo)航(Navigation)里程碑和交互(Interaction)里程碑,代理需要一步步完成這些里程碑。里程碑檢查器系統(tǒng)地檢查代理在當(dāng)前里程碑中的進度,并確定何時繼續(xù)到下一個里程碑。

下圖展示了一個ALFRED任務(wù),其由一個整體目標(biāo)和六個子任務(wù)組成。每張圖中的藍色/紅色文本框就是該方法從各子任務(wù)中抽取出的導(dǎo)航/交互里程碑。一個代理在處理下一個子任務(wù)之前需要達到當(dāng)前所處子任務(wù)的里程碑條件。

5c2d02b6-3896-11ed-ba43-dac502259ad0.png

圖2:M-TRACK方法的示意。

對于長視界(long-horizon)VLN任務(wù),代理往往需要按照一個特定的順序完成多個子任務(wù)從而完成一個完整任務(wù)。更具體地,完整任務(wù)的語言指令中的每一句指令可以視作一個子任務(wù)的語言指令。

里程碑生成器(milestone builder)使用命名實體識別技術(shù)為每一個子任務(wù)從其語言指令中提取出里程碑作為指導(dǎo)。里程碑由一個形如的元組表示。舉個例子,對于指令"Turn to the left and face the toilet",里程碑生成器將輸出標(biāo)簽,而對于指令"Pick the soap up from the back of the toilet",里程碑生成器將輸出標(biāo)簽。如果一個子任務(wù)擁有多個要求交互的物體,生成器輸出的標(biāo)簽需要包含所有。本文采用BERT-CRF模型實現(xiàn)里程碑生成器,并用ALFRED模擬器的元數(shù)據(jù)組成訓(xùn)練數(shù)據(jù)。

里程碑檢查器(milestone checker)確認(rèn)代理是否達到一個里程碑。一個導(dǎo)航里程碑的達成條件是目標(biāo)物體在視野內(nèi)且代理可以觸碰到,一個交互里程碑的達成條件是目標(biāo)物體在代理可以觸碰到的視野內(nèi)并且代理完成了與該目標(biāo)物體的交互。

另外,M-TRACK方法在代理執(zhí)行預(yù)測動作前,主動應(yīng)用里程碑檢查器進行檢查。這可以避免代理與一個錯誤的物體交互后進行額外的糾正錯誤步驟。

如圖3所示,里程碑檢查器在每一步動作執(zhí)行完畢后檢查當(dāng)前里程碑是否達成,一旦達成則向代理輸入下一個子任務(wù)的語言指令;同時,檢查器在交互動作執(zhí)行之前,確認(rèn)交互物體目標(biāo)是否為交互里程碑中涉及的物體目標(biāo),若不是則不執(zhí)行動作并挑選下一個概率最高的動作執(zhí)行。

5d5fa1ca-3896-11ed-ba43-dac502259ad0.png

圖3:里程碑檢查過程的示意圖。

值得一提的是,M-TRACK方法只需要用到語言指令、視覺輸入和代理動作,因此該方法是與模型無關(guān)的,即可以應(yīng)用到任何VLN模型上。

實驗結(jié)果

本文在ALFRED數(shù)據(jù)集上驗證M-TRACK方法。ALFRED數(shù)據(jù)集收集了8055條完成家務(wù)任務(wù)的專家路徑,其帶有25743條標(biāo)注的語言指令。驗證集和測試集會被進一步劃分為1)在訓(xùn)練過程中能看到的環(huán)境Seen和2)新的環(huán)境Unseen。

5d9754e4-3896-11ed-ba43-dac502259ad0.png

表2:ALFRED測試集上的表現(xiàn)。

如表2所示,M-TRACK方法分別應(yīng)用在LSTM模型和VLN-BERT模型上后,均顯著提高了兩模型的各指標(biāo)表現(xiàn),使得兩模型的性能優(yōu)于其它大多數(shù)模型。另外,使用M-TRACK方法的VLN-BERT模型在Unseen環(huán)境中的SR和PLWSR指標(biāo)上達到了最好表現(xiàn)。

5e41cbb8-3896-11ed-ba43-dac502259ad0.png

動機

訓(xùn)練數(shù)據(jù)稀疏一直是視覺語言導(dǎo)航領(lǐng)域的一個問題,研究自動生成高質(zhì)量的語言指令的模型方法十分重要。自動生成語言指令的一個經(jīng)典模型是Speaker-Follower模型,但其表現(xiàn)仍然不夠令人滿意。本文觀察到人類標(biāo)注員在寫語言指令時僅參考了一小部分他們看到的物體,這使得學(xué)習(xí)視覺輸入和文本輸出之間的精確映射變得更加困難。換一句話說,輸入中涉及過多的視覺信息可能反而導(dǎo)致更差的性能,因為模型會學(xué)到很多虛假的相關(guān)性。另外,本文還注意到地標(biāo)說明是語言指令中的重要組成部分。綜上,本文提出了一套僅利用地標(biāo)和動作序列等較少信息就生成語言指令的流程方法。

制作地標(biāo)數(shù)據(jù)集

MARKY-MT5第一階段識別視覺地標(biāo)作為第二階段指令生成器的輸入,這需要一個地標(biāo)識別器,而地標(biāo)識別器的訓(xùn)練需要制作地標(biāo)數(shù)據(jù)集,如圖4所示。

5e67ee38-3896-11ed-ba43-dac502259ad0.png

圖4:從RxR數(shù)據(jù)集制作的地標(biāo)數(shù)據(jù)集。

第一步是從語言指令中抽取地標(biāo)詞組,如圖5所示。第二步是將地標(biāo)詞組匹配到對應(yīng)的視覺圖像,對于一條語言指令為了匹配地標(biāo)詞組和圖像序列,建模矩陣,其中表示詞組和圖像的匹配度。

6035c424-3896-11ed-ba43-dac502259ad0.png

其中計算MURAL文本表征,計算MURAL圖像表征,返回時間戳。第三步是將圖像中的地標(biāo)居中,以更好地與地標(biāo)詞組對齊。

60498572-3896-11ed-ba43-dac502259ad0.png

圖5:地標(biāo)數(shù)據(jù)集制作過程。

地標(biāo)檢測

本文采用CenterNet模型作為地標(biāo)檢測器,輸入形式為360°全景圖的序列,同時每個全景圖上標(biāo)注了入口和出口方向,如圖6所示,輸出即為檢測出的系列地標(biāo)。

在訓(xùn)練時,使用之前從RxR數(shù)據(jù)集制作的地標(biāo)數(shù)據(jù)集。在推理時,聚集每一個視點全景圖的分?jǐn)?shù)最高的3個地標(biāo),最終返回T個分?jǐn)?shù)最高的地標(biāo),T為路徑長度。

612ff67e-3896-11ed-ba43-dac502259ad0.png

圖6:地標(biāo)檢測器的全景輸入形式。

指令生成

本文通過將選定地標(biāo)的視覺表示插入到一個模板式的英文文本序列中,以描述每個地標(biāo)的方向和穿越路線所需的動作,從而形成模型的輸入。如圖7所示,對于每張有檢測出地標(biāo)的視點全景圖,用地標(biāo)方向和當(dāng)前視點采用的前進方向,配合地標(biāo)和當(dāng)前視點的出口視圖,交織成一句語言指令,以此類推,直至描述完所有符合要求的視點全景圖。

本文采用的指令生成模型基于mT5模型,這是T5模型的多語言變體。

61aeeefc-3896-11ed-ba43-dac502259ad0.png

圖7:輸入模板和指令生成器的多語言輸出。

實驗結(jié)果

MARKY-MT5模型在RxR數(shù)據(jù)集上訓(xùn)練,分別在RxR和R2R數(shù)據(jù)集上評測。評測方法是讓人類去分別根據(jù)人類標(biāo)注和模型生成的語言指令,在虛擬環(huán)境中操作完成導(dǎo)航,完成導(dǎo)航的成功率越高,說明語言指令的質(zhì)量越高。

6200dd20-3896-11ed-ba43-dac502259ad0.png

表3:人類尋路員在R2R未知驗證集上的表現(xiàn)。

6257ee3a-3896-11ed-ba43-dac502259ad0.png

表4:人類尋路員在RxR未知驗證集上的表現(xiàn)。

綜上, 可以發(fā)現(xiàn)在較簡單的R2R數(shù)據(jù)集上,MARKY-MT5系統(tǒng)的表現(xiàn)十分接近于人類標(biāo)注的語言指令,同時又遠高于其它系統(tǒng)模型生成的語言指令質(zhì)量。而在較復(fù)雜的RxR數(shù)據(jù)集上,MARKY-MT5模型和人類標(biāo)注的語言指令質(zhì)量存在一定的差距。

總結(jié)

本次 Fudan DISC 小編分享的三篇論文從不同的角度研究了視覺語言導(dǎo)航領(lǐng)域。第一篇工作主要是綜述前人的工作,希望對視覺語言導(dǎo)航的目前進展做出一個歸納整理,無論是對剛?cè)腴T的人,還是對在這個領(lǐng)域略有心得的人,都是一個不錯的參考啟發(fā)資料。第二篇工作主要是意識到了導(dǎo)航代理在把握任務(wù)進程方面的難處,并提出了一種可行的進程監(jiān)督方式。第三篇工作在語言指令生成方面做出了突破性進展,通過精簡視覺輸入的信息,僅利用關(guān)鍵性地標(biāo)和方向動作來生成語言指令,實驗結(jié)果達到了SOTA結(jié)果。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 導(dǎo)航
    +關(guān)注

    關(guān)注

    7

    文章

    541

    瀏覽量

    42868
  • 計算機視覺
    +關(guān)注

    關(guān)注

    8

    文章

    1704

    瀏覽量

    46409
  • 自然語言
    +關(guān)注

    關(guān)注

    1

    文章

    291

    瀏覽量

    13544

原文標(biāo)題:ACL & CVPR 2022 | 逐步語言指導(dǎo)和導(dǎo)航指令生成最新進展

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    一種在視覺語言導(dǎo)航任務(wù)中提出的新方法,來探索未知環(huán)境

    視覺語言導(dǎo)航(vision-language navigation, VLN)任務(wù)指的是引導(dǎo)智能體或機器人在真實三維場景中能理解自然語言命令
    的頭像 發(fā)表于 03-05 09:38 ?4646次閱讀
    一種在<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>導(dǎo)航</b><b class='flag-5'>任務(wù)</b>中提出的新<b class='flag-5'>方法</b>,來探索未知環(huán)境

    【大語言模型:原理與工程實踐】核心技術(shù)綜述

    的復(fù)雜模式和長距離依賴關(guān)系。 預(yù)訓(xùn)練策略: 預(yù)訓(xùn)練是LLMs訓(xùn)練過程的第一階段,模型在大量的文本數(shù)據(jù)上學(xué)習(xí)語言的通用表示。常用的預(yù)訓(xùn)練任務(wù)包括遮蔽語言建模(Masked Language
    發(fā)表于 05-05 10:56

    學(xué)習(xí)C語言未來的發(fā)展方向是怎樣的?

    學(xué)習(xí)C語言未來的發(fā)展方向是怎樣的?
    發(fā)表于 11-11 08:04

    基于方向引導(dǎo)優(yōu)化的主動視覺導(dǎo)航參量計算方法

    坐標(biāo)變換是進行視覺導(dǎo)航實現(xiàn)的首要條件,為了實現(xiàn)圖像坐標(biāo)與實際車輛物理坐標(biāo)的意義映射,本文基于車輛行駛的實際道路環(huán)境構(gòu)建坐標(biāo)系,將攝像機中心定為坐標(biāo)原點,X軸為車輛行駛方向,Y軸為行駛方向
    的頭像 發(fā)表于 03-13 10:05 ?3801次閱讀
    基于<b class='flag-5'>方向</b>引導(dǎo)優(yōu)化的主動<b class='flag-5'>視覺</b><b class='flag-5'>導(dǎo)航</b>參量計算<b class='flag-5'>方法</b>

    橋接視覺語言的研究綜述

    近年來,由于深度學(xué)習(xí)、計算機視覺和自然語言處理等多學(xué)科領(lǐng)域的興趣激增,視覺語言任務(wù)的橋接得到了
    的頭像 發(fā)表于 08-09 18:32 ?2778次閱讀
    橋接<b class='flag-5'>視覺</b>與<b class='flag-5'>語言</b>的研究<b class='flag-5'>綜述</b>

    自然語言處理是人工智能領(lǐng)域中的一個重要方向

    作為未來科技發(fā)展的前沿領(lǐng)域,人工智能在技術(shù)應(yīng)用方面有很多細分領(lǐng)域,比如深度學(xué)習(xí)、推薦引擎、計算機視覺、智能機器人、自然語言處理、實時語音翻譯
    發(fā)表于 12-17 11:07 ?4926次閱讀

    視覺問答與對話任務(wù)研究綜述

    視覺問答與對話是人工智能領(lǐng)堿的重要硏究任務(wù),是計算機視覺與自然語言處理交叉領(lǐng)域的代表性問題之一。視覺
    發(fā)表于 04-08 10:33 ?10次下載
    <b class='flag-5'>視覺</b>問答與對話<b class='flag-5'>任務(wù)</b>研究<b class='flag-5'>綜述</b>

    基于視覺/慣導(dǎo)的無人機組合導(dǎo)航算法綜述

    基于視覺/慣導(dǎo)的無人機組合導(dǎo)航算法綜述
    發(fā)表于 06-23 15:52 ?19次下載

    ACL2021的跨視覺語言模態(tài)論文之跨視覺語言模態(tài)任務(wù)方法

    來自:復(fù)旦DISC 引言 本次分享我們將介紹三篇來自ACL2021的跨視覺語言模態(tài)的論文。這三篇文章分別介紹了如何在圖像描述任務(wù)中生成契合用戶意圖的圖像描述、端對端的視覺
    的頭像 發(fā)表于 10-13 10:48 ?2656次閱讀
    ACL2021的跨<b class='flag-5'>視覺</b><b class='flag-5'>語言</b>模態(tài)論文之跨<b class='flag-5'>視覺</b><b class='flag-5'>語言</b>模態(tài)<b class='flag-5'>任務(wù)</b>與<b class='flag-5'>方法</b>

    利用視覺+語言數(shù)據(jù)增強視覺特征

    傳統(tǒng)的多模態(tài)預(yù)訓(xùn)練方法通常需要"大數(shù)據(jù)"+"大模型"的組合來同時學(xué)習(xí)視覺+語言的聯(lián)合特征。但是關(guān)注如何利用視覺+語言數(shù)據(jù)提升
    的頭像 發(fā)表于 02-13 13:44 ?1185次閱讀

    多維度剖析視覺-語言訓(xùn)練的技術(shù)路線

    (如BERT\GPT等)的啟發(fā),視覺-語言預(yù)訓(xùn)練 (Vision-Language Pre-training, VLP) 逐漸受到關(guān)注,成為如今 VL 任務(wù)的核心訓(xùn)練范式。本文對 VLP 領(lǐng)域
    的頭像 發(fā)表于 02-23 11:15 ?1064次閱讀

    小樣本學(xué)習(xí)領(lǐng)域未來發(fā)展方向

    解決方案。來自香港科技大學(xué)和第四范式的研究人員綜述了該領(lǐng)域的研究發(fā)展,并提出了未來的研究方向。 ? 這篇綜述論文已被 ACM Computi
    的頭像 發(fā)表于 06-14 09:59 ?997次閱讀
    小樣本學(xué)習(xí)<b class='flag-5'>領(lǐng)域</b>的<b class='flag-5'>未來</b>發(fā)展<b class='flag-5'>方向</b>

    視覺紋理導(dǎo)航,亦稱Visual SLAM導(dǎo)航

    視覺紋理導(dǎo)航,亦稱Visual SLAM導(dǎo)航,通過自動導(dǎo)引車車載視覺傳感器獲取運行區(qū)域周的圖像信息來實現(xiàn)導(dǎo)航
    的頭像 發(fā)表于 04-29 10:01 ?3928次閱讀
    <b class='flag-5'>視覺</b>紋理<b class='flag-5'>導(dǎo)航</b>,亦稱Visual SLAM<b class='flag-5'>導(dǎo)航</b>

    ICCV 2023 | 面向視覺-語言導(dǎo)航的實體-標(biāo)志物對齊自適應(yīng)預(yù)訓(xùn)練方法

    Navigation 的解讀。本論文是某智能人機交互團隊在視覺-語言導(dǎo)航(Vision-and-Language Navigation, VLN)領(lǐng)域的最新工作。該工作構(gòu)建了 VLN
    的頭像 發(fā)表于 10-23 09:40 ?967次閱讀
    ICCV 2023 | 面向<b class='flag-5'>視覺</b>-<b class='flag-5'>語言</b><b class='flag-5'>導(dǎo)航</b>的實體-標(biāo)志物對齊自適應(yīng)預(yù)訓(xùn)練<b class='flag-5'>方法</b>

    基于視覺語言模型的導(dǎo)航框架VLMnav

    本文提出了一種將視覺語言模型(VLM)轉(zhuǎn)換為端到端導(dǎo)航策略的具體框架。不依賴于感知、規(guī)劃和控制之間的分離,而是使用VLM在一步中直接選擇動作。驚訝的是,我們發(fā)現(xiàn)VLM可以作為一種無需任何微調(diào)或
    的頭像 發(fā)表于 11-22 09:42 ?558次閱讀
    主站蜘蛛池模板: 国产婷婷色 | 欧美第一色 | 97人人射| 亚洲国产精品国产自在在线 | 亚洲激情视频网 | 69精品久久久久 | 99综合久久| 午夜性视频 | www.日本黄色 | 1024国产欧美日韩精品 | 热久久久久 | 六月婷婷在线观看 | 中文字幕在线不卡 | 久久久久久久久久免观看 | 特黄特黄aaaa级毛片免费看 | 欧美一区二区不卡视频 | 四虎精品免费永久在线 | 性在线视频 | avbobo在线 | 精品一精品国产一级毛片 | 精品久久香蕉国产线看观看亚洲 | 国产精品丝袜在线观看 | 97综合色| 午夜.dj高清在线观看免费8 | 国内真实实拍伦视频在线观看 | 永久免费的拍拍拍网站 | 色噜噜狠狠大色综合 | 日本特黄特色aaa大片免费欧 | 99青草青草久热精品视频 | 国产精品自在线天天看片 | 午夜资源 | 成人国产精品一级毛片了 | 色综合天天综久久久噜噜噜久久〔 | h在线免费观看 | 亚洲国产成人久久笫一页 | 国产大片黄在线观看 | 午夜影视在线观看 | 大桥未久加勒比女热大陆在线 | 深夜释放自己vlog糖心旧版本 | 午夜啪啪免费视频 | 欧美日韩高清一本大道免费 |