以“鉆石鎬”(diamond pickaxe)為例,這個東西高級人類玩家要快速點擊20分鐘、約2.4萬個動作才能制作完成。
而現(xiàn)在的AI,已然能夠輕松hold住了。
哐哐找到各種材料,一步步進行各種合成:
這就是來自O(shè)penAI號稱最強的《我的世界》AI——MineDojo。
它還是世界第一個能夠打造“鉆石工具”的AI。
不僅如此,像打造“石鎬”、“簡易避難所”都不在話下:
當然,在《我的世界》里其它的常規(guī)操作,在MineDojo手里也游刃有余。
例如游泳、狩獵、支柱跳等等:
至于OpenAI為什么要讓AI學(xué)會這些技巧,研究人員Bowen Baker表示:
很大程度上是因為我們在模擬人類上網(wǎng)時的行為。
MineDojo是如何煉成的?
正如我們剛才提到的,MineDojo的“煉成之道”,就是看視頻。
這些視頻內(nèi)容都是人類玩家發(fā)布在油管上,展示自己如何玩《我的世界》的。
然后在看完70000小時視頻之后,這個AI就學(xué)會了如何執(zhí)行游戲中的各種任務(wù)。
這種方式一般被稱為模仿學(xué)習(imitation learning),就是訓(xùn)練神經(jīng)網(wǎng)絡(luò)通過觀察人類行為來學(xué)習。
雖然此前也有眾多相關(guān)研究,但仍有一些問題尚待解決。
“貼標簽”就是其中之一。
傳統(tǒng)方式就是在每一個動作上貼上標簽:這么做會發(fā)生這件事、那么做會發(fā)生那件事。
但這種方式可想而知的后果,就是工作量太大了,導(dǎo)致可以用來訓(xùn)練的數(shù)據(jù)較少。
因此,OpenAI的研究人員便另辟蹊徑,想出了不一樣的研究思路——視頻預(yù)訓(xùn)練(Video Pre-Training,VPT):
這個方法的核心思路,就是訓(xùn)練另一個神經(jīng)網(wǎng)絡(luò),專門來處理繁瑣的“貼標簽”的工作。
為此,研究人員先是找來一批玩家讓他們先玩《我的世界》,當然,娛樂的同時也要記錄下鍵盤、鼠標的點擊次數(shù)。
如此一來,研究人員先是得到了2000小時帶標記的一些數(shù)據(jù)。
在這基礎(chǔ)上,他們便開始訓(xùn)練一個模型,來匹配鍵盤、鼠標動作和屏幕上的結(jié)果——
例如在什么情況下點下鼠標,會讓游戲中的角色揮舞斧頭。
把這個模型訓(xùn)練出來之后,就要引入70000小時沒有標簽的視頻了;在它的加持下,龐大且可用的數(shù)據(jù)集就誕生了。
再接下來,就是回到之前模仿學(xué)習的思路,用這些新數(shù)據(jù)來訓(xùn)練AI。
雖說模仿學(xué)習可以說是強化學(xué)習的一個分支,但OpenAI的研究人員發(fā)現(xiàn),VPT訓(xùn)出來的AI,能夠完成單靠強化學(xué)習無法完成的任務(wù)。
比如制作木板并把它們變成一張桌子(大約需要970個連續(xù)動作)。
不僅如此,研究人員還發(fā)現(xiàn),若是把模仿學(xué)習和強化學(xué)習做個結(jié)合,那么效果是最好的。
而由《我的世界》這次的研究拓展開來,OpenAI的研究人員還表示:
我們的AI還可以執(zhí)行其它任務(wù),例如鼠標瀏覽網(wǎng)站、預(yù)訂航班或在線購物。
《我的世界》已經(jīng)成為AI技術(shù)試驗田
其實OpenAI這次研究的亮點,刨除VPT方法本身,其研究的兩大要素——《我的世界》和視頻,也成為人們熱議的焦點。
《我的世界》這款游戲的一大特點就是開放性,玩家可以在這個虛擬世界里做出許多意想不到的杰作。
不同于以往強化學(xué)習訓(xùn)練AI的游戲環(huán)境,大多都是以“輸贏”為結(jié)果而終止了,但往往AI后期訓(xùn)練出來的能力可能是超越這種“限制”的。
但《我的世界》就沒有“輸贏”之說了,AI可以在這里盡情的發(fā)揮。因此OpenAI研究人員表示:
《我的世界》是訓(xùn)練AI很好的試驗田。
而這也贏得了NeurIPS的認可——MineDojo拿下了今年這個頂會的一個獎項。
至于這項研究第二個熱議點“視頻”,正如索尼執(zhí)行董事Peter Stone所述:
視頻是一種潛力巨大的培訓(xùn)資源。
但似乎OpenAI的研究人員還不滿足此次的成果,他們認為,收集100萬小時《我的世界》的視頻,會讓它們的AI變得更加出色。
當然,這項研究也引來不少網(wǎng)友們的圍觀,也有一些比較有意思的討論:
人們想讓AI有意識,但它們有意識之后才發(fā)覺,自己需要被迫看這么久的視頻,有夠累的。
論文地址: https://openai.com/blog/vpt/
審核編輯 :李倩
-
AI
+關(guān)注
關(guān)注
87文章
31536瀏覽量
270358 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1290瀏覽量
24461
原文標題:AI看了70000小時《我的世界》視頻學(xué)會人類高級技巧,網(wǎng)友:它好痛苦
文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
NVIDIA推出加速物理AI開發(fā)的Cosmos世界基礎(chǔ)模型
在ARM上實現(xiàn)模擬視頻的實時解碼,模擬相機的速度為1080p 30fps,TVP5150能達到這個速度嗎?
ADS1232增益無法達到64或者128怎么解決?
國產(chǎn)在線測徑儀為什么能達到先進水平?
如何設(shè)計一個在15Mhz下能達到80dB的放大系統(tǒng)?
劉潤:逛了2個小時世界人工智能大會
![劉潤:逛了2<b class='flag-5'>個</b><b class='flag-5'>小時世界</b>人工智能大會](https://file.elecfans.com/web2/M00/43/7B/pYYBAGJ-B6aAHuNPAAAf8J1Ebk4778.jpg)
ai智能視頻監(jiān)控系統(tǒng) OpenCV
![<b class='flag-5'>ai</b>智能<b class='flag-5'>視頻</b>監(jiān)控系統(tǒng) OpenCV](https://file1.elecfans.com/web2/M00/F7/C0/wKgZomaFZ5CANa2qAADpYXYELoQ182.png)
智譜AI劉江:5-10年內(nèi)AGI會達到普通人水平
儲能小時數(shù)是指什么?儲能小時數(shù)怎樣計算?
世界第一AI芯片發(fā)布!世界紀錄直接翻倍 晶體管達4萬億個
Stability AI與Morph AI共同推出一體化AI視頻創(chuàng)作工具
谷歌發(fā)布全新AI基礎(chǔ)世界模型Genie
谷歌發(fā)布AI基礎(chǔ)世界模型Genie
AI視頻年大爆發(fā)!2023年AI視頻生成領(lǐng)域的現(xiàn)狀全盤點
![<b class='flag-5'>AI</b><b class='flag-5'>視頻</b>年大爆發(fā)!2023年<b class='flag-5'>AI</b><b class='flag-5'>視頻</b>生成領(lǐng)域的現(xiàn)狀全盤點](https://file1.elecfans.com/web2/M00/C0/40/wKgZomXUEh2ABaktAAAal6NagG0595.png)
輻射硬化和SEE硬化6A同步降壓調(diào)節(jié)器ISL 70000SEHISL 70000SH 數(shù)據(jù)表
![輻射硬化和SEE硬化6A同步降壓調(diào)節(jié)器ISL <b class='flag-5'>70000</b>SEHISL <b class='flag-5'>70000</b>SH 數(shù)據(jù)表](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
評論