使用視頻游戲作為訓(xùn)練人工智能的媒介已經(jīng)成為人工智能研究界的一種流行方法。這些自主代理在 Atari 游戲、星際爭霸、 Dota 和 Go 中取得了巨大成功。但是,雖然這些進步在人工智能研究中很受歡迎,但與不斷從開放式任務(wù)中學(xué)習的人類不同,智能體并沒有泛化到一組非常特定的任務(wù)之外。
構(gòu)建能夠在廣泛任務(wù)中實現(xiàn)高水平性能的嵌入式代理一直是人工智能研究界面臨的最大挑戰(zhàn)之一。為了構(gòu)建一個成功的多面手代理,用戶需要一個支持多種任務(wù)和目標的環(huán)境、一個多模式知識的大規(guī)模數(shù)據(jù)庫和一個靈活且可擴展的代理體系結(jié)構(gòu)。
進入 Minecraft ,世界上玩得最多的游戲。憑借其靈活的游戲性,玩家可以做各種各樣的動作。從建造中世紀城堡到探索危險環(huán)境,再到收集資源建造幽冥之門與幽冥之龍作戰(zhàn)。這種創(chuàng)造性的氛圍是培養(yǎng)具體化代理的完美環(huán)境。
為了利用這樣一個最佳的訓(xùn)練場地, NVIDIA 的研究人員創(chuàng)造了 MineDojo 。 MineDojo 構(gòu)建了一個龐大的框架,其特點是一個模擬套件,包含數(shù)千個不同的開放式任務(wù)和一個互聯(lián)網(wǎng)規(guī)模的知識庫。如果沒有一個擴展的數(shù)據(jù)庫,構(gòu)建一個強大到足以完成這些任務(wù)的人工智能是不可能的。
MineDojo 的使命是促進研究,以實現(xiàn)具有普遍能力的嵌入式代理的目標。為了使嵌入式代理成功,環(huán)境需要提供幾乎無限多的開放式任務(wù)和操作。這是通過讓代理訪問大型信息數(shù)據(jù)庫來獲取知識,然后應(yīng)用所學(xué)知識來實現(xiàn)的。從嵌入式代理獲得的訓(xùn)練需要具有可擴展性,以便稍后將大規(guī)模知識轉(zhuǎn)換為可操作的見解。
在 MineDojo 中,嵌入式代理可以訪問三個互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集。隨著 750000 個 Minecraft YouTube 視頻(總計 33 年多的 Minecraft 視頻)被納入數(shù)據(jù)庫, 200 多萬個單詞被轉(zhuǎn)錄。
MineDojo 還從 Minecraft Wiki 上抓取了 6000 多個網(wǎng)頁,為這些網(wǎng)頁的視覺元素創(chuàng)建了 220 多萬個邊界框)。此外,還捕獲了數(shù)百萬條與 Minecraft 相關(guān)的 Reddit 線程以及在游戲中可以進行的各種活動。問題包括如何解決某些任務(wù),以圖像和視頻格式展示成就和創(chuàng)作,以及一般提示和技巧。
MineDojo 提供了一組模擬器 API ,用戶可以使用這些 API 來訓(xùn)練他們的人工智能代理。它提供了統(tǒng)一的觀察和操作空間,以幫助代理適應(yīng)新的場景和多任務(wù)。此外,使用 API ,用戶可以利用 Minecraft 宇宙中的所有三個世界來擴展代理可以執(zhí)行的任務(wù)和操作的數(shù)量。
在模擬器中, MIneDojo 將基準測試任務(wù)分為兩類:編程任務(wù)和創(chuàng)造性任務(wù)。
編程任務(wù)定義明確,易于評估,例如“存活 3 天”或“在森林中獲得一單位南瓜”
創(chuàng)造性的任務(wù)更具開放性,例如“建造一座美麗的海灘小屋”很難通過一套明確的規(guī)則來定義什么是海灘別墅。這些任務(wù)是為了鼓勵研究界開發(fā)更人性化和富有想象力的人工智能代理。
自然語言是 MineDojo 框架的基石。它有助于開放式詞匯理解,為圖像和視頻模式提供基礎(chǔ),并作為指定指令的直觀界面。結(jié)合 最新的語音識別技術(shù) ,在不久的將來,你可以像在多人合作模式下與朋友一樣與人工智能代理交談。
例如:“在我們的房子前面種一排藍色的花。在門框上加一些金色的裝飾。讓我們?nèi)ヌ剿骱舆叺亩囱ā!边@一切都是可能的。
使用 MineCLIP 進行概念驗證
為了幫助推動該項目并提供概念證明, MineDojo 研究人員已經(jīng)實現(xiàn)了一個單語言提示代理,以完成 Minecraft 中的幾個復(fù)雜任務(wù),稱為 MineCLIP 。這種新穎的代理學(xué)習算法利用了 33 年的 Minecraft YouTube 視頻。然而,值得一提的是,任何代理都可以根據(jù)用戶的判斷使用互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)庫的任何或全部三個部分。
MineCLIP 作為一個具體的代理,從 YouTube 視頻中學(xué)習 Minecraft 的概念和動作,而不需要人工標記。 YouTubers 通常會在播放游戲視頻時講述他們在做什么。 MineCLIP 是一個大型 transformer 模型,它學(xué)習將視頻剪輯與其對應(yīng)的英語成績單相關(guān)聯(lián)。
該關(guān)聯(lián)分數(shù)可以作為獎勵信號提供,以指導(dǎo)強化學(xué)習代理完成任務(wù)。對于示例任務(wù)“剪一只羊以獲得羊毛”,如果代理接近羊, MineCLIP 會給代理較高的獎勵,但如果代理漫無目的地漫游,則會給較低的獎勵。它甚至可以在游戲中進行多任務(wù)處理,以完成廣泛的簡單任務(wù)。
構(gòu)建具有普遍能力的具體化代理是人工智能研究的圣杯目標。 MineDojo 提供了 1000 個任務(wù)的基準、互聯(lián)網(wǎng)規(guī)模的豐富知識庫和創(chuàng)新算法,作為解決這一重大挑戰(zhàn)的第一步。
關(guān)于作者
Nathan Horrocks 是 NVIDIA Research 的內(nèi)容營銷經(jīng)理。他重點強調(diào)了 NVIDIA 實驗室在世界各地進行的驚人研究。
審核編輯:郭婷
-
嵌入式
+關(guān)注
關(guān)注
5152文章
19676瀏覽量
317732 -
API
+關(guān)注
關(guān)注
2文章
1620瀏覽量
64069 -
模擬器
+關(guān)注
關(guān)注
2文章
894瀏覽量
44434
發(fā)布評論請先 登錄
代理型人工智能:定義與解析
生成式人工智能模型的安全可信評測

評論