在每個人的童年時期,我們是如何學會記住自己家附近的路的?我們是怎樣學會自己去朋友家、學校或者去小賣部的?在沒有地圖的情況下,我們可能只是簡單地記住了某條路長什么樣,憑記憶引導自己。慢慢地,我們逐漸熟悉了自己的日常活動范圍,就變得有信心了,能知道自己身在何處,并且學習了新的更復雜的道路。偶爾你可能會迷路,但是憑借某個標志甚至太陽你又能找到正確的路。
在非結構化的環境中導航是智能生物的特有的功能,想要實現遠程導航,首先要對空間進行內部探索,然后要識別地標,同時還要有強大的視覺處理能力。基于最近將深度強化學習應用于迷宮導航的研究,DeepMind的研究人員也提出了一種端到端的深度強化學習方法,他們讓智能體在真實的城市空間中導航,無需地圖,并且這種方法還能遷移到不同城市環境。
導航是一項重要的認知任務,它能讓人類和動物在沒有地圖的情況下,穿越過一片阡陌縱橫的區域。這種遠距離導航可以同時進行自我定位(我在這里)和目標表示(我要去那里)。
在Learning to Navigate in Cities Without a Map這篇論文里,我們展示了一種交互式導航環境,利用第一人稱視角的谷歌街景照片做素材,將其游戲化以訓練AI。標準的街景照片,人臉和車牌都被模糊,無法識別。我們建立了一個基于神經網絡的智能體,學習使用視覺信息在多個城市中導航。注意,這項研究關注的是一般導航,而非駕駛導航;我們沒有使用交通信息,也沒有對車輛控制進行建模。
數據來源于真實街景。從左至右分別為紐約時代廣場、中央公園和倫敦圣保羅大教堂
當智能體達到目的地時,它就會獲得獎勵(具體來說是一個經緯度坐標),就像一個沒有地圖的郵遞員,要送無數的快遞。隨著時間的發展,智能體慢慢學會了用這種方法穿越整個城市。我們同樣證明了智能體可以學習多個城市的道路,并且這種學習方法能有效遷移到新的城市中。
在沒有地圖的情況下學習導航
我們不使用傳統的依賴外部映射和探索的傳統方法,而是讓智能體學習像人類一樣導航,不用地圖、GPS定位或其他輔助工具,只用視覺觀察。我們創建了一個神經網絡智能體,向其中輸入在環境中觀察到的圖像,并預測它在該環境中執行的下一項操作。我們使用深度強化學習對其進行端到端訓練,類似最近讓智能體在復雜的3D迷宮中學習導航的研究,以及用無監督輔助方法玩游戲。與迷宮不同,我們利用真實的城市數據,例如倫敦、巴黎和紐約的復雜交叉路口、人行道、隧道和各種城市道路。此外,我們使用的方法可以遷移到不同城市,并可以優化導航行為。
模塊化神經網絡
我們智能體的神經網絡包括三個部分:
能夠處理圖像并提取視覺特征的卷積網絡;
一個特定場所的循環神經網絡,在內部進行對環境的記憶并學習表示“這里”(智能體的當前位置)和“那里”(目標位置);
一個位置不變的循環網絡,能夠根據智能體位置的變化進行導航。
特定場所的模塊被設計成可互換的,并且正如其名,對于每個城市都是唯一的,而視覺模塊和策略模塊是不隨著場景而變換的。
就像谷歌街景的界面一樣,智能體可以在原地打轉,也可以向前進入到下一個場景。但與谷歌地圖和街景不同的是,智能體看不到小箭頭、局部或全景地圖以及標志性的街景小人,它還需要學習區分開放道路和人行道。目的地可能是幾公里以外的地方,智能體需要搜索幾百個全景圖才能到達。
我們證明了這種方法能提供一種機制,將導航知識遷移到新城市中。和人類一樣,當智能體來到一個新城市,我們會希望它學習一組新的地標,但不必重新學習它的視覺表現或行為(例如,沿著街道向前縮放,或者在交叉路口轉向)。因此,使用MultiCity架構,我們在許多城市進行首次訓練,然后凍結策略網絡和視覺卷積網絡,并在一個新城市中建立唯一一個新的特定地區路徑。這種方法讓智能體在獲取新知識的同時不忘之前學到的東西,類似漸進式神經網絡架構。
學習導航是人工智能領域的基礎,試圖在智能體中復制導航功能還可以幫助科學家了解其生物學基礎。
-
神經網絡
+關注
關注
42文章
4814瀏覽量
103663 -
導航
+關注
關注
7文章
555瀏覽量
43169 -
人工智能
+關注
關注
1807文章
49029瀏覽量
249614
原文標題:無需地圖,DeepMind讓智能體在城市中自我導航
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
NVIDIA Isaac Lab可用環境與強化學習腳本使用指南

18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現

詳解RAD端到端強化學習后訓練范式

淺談適用規模充電站的深度學習有序充電策略

OpenAI發布深度研究智能體功能
如何在化學和材料科學領域開展有影響力的人工智能研究?(三)

如何在化學和材料科學領域開展有影響力的人工智能研究?(二)

螞蟻集團收購邊塞科技,吳翼出任強化學習實驗室首席科學家
淺談適用于大規模充電場站的深度強化學習有序充電策略

如何使用 PyTorch 進行強化學習
基于深度學習的三維點云分類方法

評論