DeepMind潛心兩年打造的AlphaStar,以5比0的比分,決定性地?fù)魯×耸澜缟献顝?qiáng)大的職業(yè)星際爭(zhēng)霸玩家之一,攻破了人類難度最高的游戲,又一個(gè)里程碑!
AlphaStar橫空出世!
剛剛,DeepMind在推出AlphaGo之后,又把打造兩年的AlphaStar推上歷史的舞臺(tái),創(chuàng)造出第一個(gè)打敗星際爭(zhēng)霸2頂級(jí)職業(yè)選手的AI。
DeepMind昨晚放出在12月19日舉行的一系列測(cè)試比賽錄像,AlphaStar在與隊(duì)友達(dá)里奧·溫施(Dario " TLO " Wunsch)進(jìn)行了一場(chǎng)成功的基準(zhǔn)測(cè)試后,以5比0的比分,決定性地?fù)魯×耸澜缟献顝?qiáng)大的職業(yè)星際爭(zhēng)霸玩家之一。
雖然在像雅達(dá)利、馬里奧、雷神爭(zhēng)霸3競(jìng)技場(chǎng)和Dota 2這樣的電子游戲中,AI已經(jīng)取得了巨大的成功,但直到現(xiàn)在,AI仍在努力應(yīng)對(duì)星際爭(zhēng)霸的復(fù)雜性。
《星際爭(zhēng)霸2》由暴雪娛樂(lè)公司出品,故事背景設(shè)定在一個(gè)虛構(gòu)的科幻世界中,具有豐富的多層次游戲玩法,旨在挑戰(zhàn)人類的智力。因?yàn)楦叨葟?fù)雜性和策略性,這款游戲成為史上規(guī)模最大、最成功的游戲之一,玩家在電子競(jìng)技比賽中競(jìng)爭(zhēng)了20多年。
這次AI擊敗頂級(jí)選手,真正攻破了人類智力的最后陣地!
10段錄像見證AlphaStar大殺特殺,人類玩家現(xiàn)場(chǎng)絕地反擊
賽前,DeepMind召集了兩位人類職業(yè)玩家選手,每位選手分別與AlphaStar對(duì)戰(zhàn)五回合。而后在現(xiàn)場(chǎng),人類與AI進(jìn)行了最終的博弈,挽回了顏面,我們一起來(lái)看下。
這次終極1V1人機(jī)大戰(zhàn)采用的地圖是Catalyst LE,游戲版本為4.6.2。
與AlphaStar對(duì)戰(zhàn)的人類選手,分別是TLO和MaNa。
TLO是現(xiàn)役職業(yè)選手德國(guó)人Dario Wünsch,所屬荷蘭戰(zhàn)隊(duì) “Team Liquid”。他在2018年WSC Circuit中排名44。由于經(jīng)常全力在Twitch直播,TLO在玩家中很出名。
另一位對(duì)戰(zhàn)選手,是今年25歲的現(xiàn)役職業(yè)玩家“MaNa”,有波蘭王牌之稱。MaNa慣用神族,在剛剛結(jié)束的IEM科隆站比賽中,MaNa在小組賽中以2:1戰(zhàn)勝了韓國(guó)選手Jaedong。
MaNa目前在2018 WSC Circuit上排名第13,他在去年WCS Austin中獲得亞軍,在2015年WCS第三季中也獲得亞軍。更早一些,MaNa得過(guò)Dreamhack2012夏季賽的冠軍。
接下來(lái)是10場(chǎng)比賽錄像中的精彩片段,以及現(xiàn)場(chǎng)的精彩打斗。
Round 1:7分鐘,AlphaStar終結(jié)人類頂級(jí)玩家
開局,人類玩家率先派出農(nóng)民一位,在AI家里來(lái)回探路。
2分50秒,人類玩家派出2名高階圣堂開始了第一波騷擾,AlphaStar派出部分壯丁對(duì)其進(jìn)行狙擊剿滅。
隨后人類玩家騷擾不斷,與此同時(shí)AI也開始了反擊,派出了一名追蹤者攻擊主基地。
而不知不覺中,AI已經(jīng)攢出了6個(gè)追蹤者,并大步邁向人類玩家分基地。
雙方開始了第一波GANK,但LTO派出家里老少還算抵御住了這次攻擊。然而,AI的補(bǔ)給兵已經(jīng)到達(dá)戰(zhàn)場(chǎng)。LTO已是無(wú)力回天。
Round2:人類玩家侵略性強(qiáng),AI步步為營(yíng),精準(zhǔn)計(jì)算
依舊,雙方前期小打小鬧不斷,6分鐘左右,AlphaStar率先派出10名追蹤者對(duì)LTO進(jìn)行攻擊,人類玩家防御成功。
在此期間,AlphaStar做出了減少氣體采集的策略。
而后,人類玩家和AI都各自發(fā)展經(jīng)濟(jì)、制造兵種,在全場(chǎng)小范圍迂回作戰(zhàn)。
在14分時(shí),致勝點(diǎn)出現(xiàn)了,看似人類玩家追打AI,卻突然被其它兩路而來(lái)的兵源切割,慘遭毒手。
人類玩家無(wú)力回天,AlphaStar再次取勝。
Round3-5:AlphaStar兵臨城下,各路圍剿,簡(jiǎn)直虐待
接下來(lái)播放的視頻是另一位頂級(jí)人類玩家MaNa的戰(zhàn)況。
來(lái)看下錄播視頻中的三段完虐場(chǎng)景吧。
遛著農(nóng)民絞殺。
快推一波流。
三路圍剿,兵敗峽谷。
現(xiàn)場(chǎng)較量:人類玩家絕地大反擊,將AI趕盡殺絕
可能是因?yàn)锳I太厲害,人類需要證明自己的實(shí)力。最后,職業(yè)玩家MaNa在現(xiàn)場(chǎng)與AlphaStar實(shí)時(shí)較量了一場(chǎng)。
與錄像相比,此次人類選手采取了較為保守的策略,選擇發(fā)展經(jīng)濟(jì)、“招兵買馬”;而AlphaStar則率先發(fā)起挑釁。
而且迂迂回回不斷進(jìn)行騷擾,基地周邊以及探路的農(nóng)民也遭到射殺。
在保守打法的基礎(chǔ)上,MaNa已經(jīng)積攢了一定的兵力,在發(fā)現(xiàn)AlphaStar兵力出巢瞬間,立即發(fā)動(dòng)兵力進(jìn)行攻擊。同時(shí)也不忘建分基地,雙線操作,十分穩(wěn)。
而此時(shí),AlphaStar的兵力并沒(méi)有及時(shí)趕回救場(chǎng),MaNa借此機(jī)會(huì)直接拆掉了分基地。
面對(duì)剛剛趕回的AlphaStar兵團(tuán),MaNa一頓操作猛如虎,直接擊退其兵力,而后果斷直搗黃龍。
最終,人類絕地反擊,戰(zhàn)勝了AI。
來(lái)自全球的看官瞬間不淡定了,評(píng)論區(qū)已然炸成鍋——為人類的獲勝歡呼雀躍——這或許也是為了挽回人類最后的顏面。
AlphaStar煉成記:每個(gè)代理使用16個(gè)TPU
AlphaStar的行為是由一個(gè)深層神經(jīng)網(wǎng)絡(luò)生成的,該網(wǎng)絡(luò)接收來(lái)自原始游戲interface的輸入數(shù)據(jù)(單元及其屬性的列表),并輸出構(gòu)成游戲內(nèi)操作的指令序列。更具體地說(shuō),神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)對(duì)單元應(yīng)用一個(gè)轉(zhuǎn)換器軀干,結(jié)合一個(gè)LSTM核心、一個(gè)帶有指針網(wǎng)絡(luò)的自回歸策略頭和一個(gè)集中的值基線。
DeepMind相信,這種先進(jìn)的模型將有助于解決機(jī)器學(xué)習(xí)研究中涉及長(zhǎng)期序列建模和大輸出空間(如翻譯、語(yǔ)言建模和視覺表示)的許多其他挑戰(zhàn)。
AlphaStar還使用了一種新的多智能體學(xué)習(xí)算法。神經(jīng)網(wǎng)絡(luò)最初是由暴雪公司發(fā)布的匿名人類游戲中的監(jiān)督學(xué)習(xí)訓(xùn)練出來(lái)的。這使得AlphaStar能夠通過(guò)模仿StarCraft ladder上玩家使用的基本微觀和宏觀策略。這個(gè)最初的代理在95%的游戲中擊敗了內(nèi)置的“精英”AI關(guān)卡——即人類玩家的黃金關(guān)卡。
然后用它們來(lái)建立一個(gè)多主體強(qiáng)化學(xué)習(xí)過(guò)程。一個(gè)連續(xù)的聯(lián)盟被創(chuàng)造出來(lái),聯(lián)盟的代理——競(jìng)爭(zhēng)者——相互之間玩游戲,就像人類在StarCraft ladder玩游戲一樣。
新的競(jìng)爭(zhēng)者通過(guò)從現(xiàn)有競(jìng)爭(zhēng)者中進(jìn)行分支,動(dòng)態(tài)地添加到聯(lián)盟中;然后每個(gè)代理從與其他競(jìng)爭(zhēng)對(duì)手的游戲中學(xué)習(xí)。這種新的訓(xùn)練形式將基于人群的強(qiáng)化學(xué)習(xí)理念進(jìn)一步發(fā)揚(yáng)光大,創(chuàng)造了一個(gè)不斷探索《星際爭(zhēng)霸》游戲玩法巨大戰(zhàn)略空間的過(guò)程,同時(shí)確保每個(gè)競(jìng)爭(zhēng)對(duì)手都能在最強(qiáng)的戰(zhàn)略面前表現(xiàn)出色,并且不會(huì)忘記如何擊敗較早的戰(zhàn)略。
隨著聯(lián)賽的發(fā)展和新的競(jìng)爭(zhēng)對(duì)手的產(chǎn)生,新的對(duì)抗策略出現(xiàn)了,能夠擊敗以前的策略。當(dāng)一些新的競(jìng)爭(zhēng)者執(zhí)行一個(gè)僅僅是對(duì)以前的策略的改進(jìn)的策略時(shí),另一些人發(fā)現(xiàn)了包含全新構(gòu)建訂單、單元組合和微觀管理計(jì)劃的全新策略。
例如,在AlphaStar聯(lián)盟早期,一些“俗套”的策略,如使用光子炮或黑暗圣堂武士進(jìn)行非常快速的快攻,受到了玩家的青睞。隨著訓(xùn)練的進(jìn)行,這些冒險(xiǎn)的策略被拋棄了,產(chǎn)生了其他的策略:例如,通過(guò)過(guò)度擴(kuò)張擁有更多工人的基地來(lái)獲得經(jīng)濟(jì)實(shí)力,或者犧牲兩個(gè)神諭來(lái)破壞對(duì)手的工人和經(jīng)濟(jì)。這一過(guò)程類似于《星際爭(zhēng)霸》發(fā)行多年以來(lái)玩家發(fā)現(xiàn)新策略并能夠擊敗之前所青睞的方法的過(guò)程。
為了鼓勵(lì)聯(lián)盟的多樣性,每個(gè)代理都有自己的學(xué)習(xí)目標(biāo):例如,這個(gè)代理的目標(biāo)應(yīng)該是打敗哪些競(jìng)爭(zhēng)對(duì)手,以及影響代理如何發(fā)揮的任何其他內(nèi)部動(dòng)機(jī)。一個(gè)代理可能有打敗某個(gè)特定競(jìng)爭(zhēng)對(duì)手的目標(biāo),而另一個(gè)代理可能必須打敗整個(gè)競(jìng)爭(zhēng)對(duì)手分布,但這是通過(guò)構(gòu)建更多特定的游戲單元來(lái)實(shí)現(xiàn)的。這些學(xué)習(xí)目標(biāo)在培訓(xùn)過(guò)程中得到了調(diào)整。
最好的結(jié)果可能是通過(guò)手工制作系統(tǒng)的主要元素,對(duì)游戲規(guī)則施加重大限制,賦予系統(tǒng)超人的能力,或者在簡(jiǎn)化的地圖上進(jìn)行游戲。即使有了這些改進(jìn),也沒(méi)有一個(gè)系統(tǒng)能與職業(yè)選手的技術(shù)相媲美。相比之下,AlphaStar在星際爭(zhēng)霸2中玩的是完整的游戲,它使用的深度神經(jīng)網(wǎng)絡(luò)是通過(guò)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)直接從原始游戲數(shù)據(jù)中訓(xùn)練出來(lái)的。
為了訓(xùn)練AlphaStar,DeepMind使用谷歌的v3版本的TPU構(gòu)建了一個(gè)高度可伸縮的分布式訓(xùn)練設(shè)置,它支持大量代理從數(shù)以千計(jì)的星際爭(zhēng)霸2并行實(shí)例中學(xué)習(xí)。AlphaStar聯(lián)賽運(yùn)行了14天,每個(gè)代理使用16個(gè)TPU。在訓(xùn)練期間,每個(gè)代理都經(jīng)歷了長(zhǎng)達(dá)200年的星際爭(zhēng)霸實(shí)時(shí)游戲。最終的AlphaStar代理由聯(lián)盟的Nash分布組成——換句話說(shuō),已經(jīng)發(fā)現(xiàn)的最有效的策略組合——運(yùn)行在單個(gè)桌面GPU上。
另外,這項(xiàng)工作的論文也即將發(fā)布。
AlphaStar實(shí)戰(zhàn)技巧分析
講完AlphaStar的訓(xùn)練過(guò)程,再來(lái)分析下實(shí)戰(zhàn)過(guò)程。
像TLO和MaNa這樣的職業(yè)星際爭(zhēng)霸玩家,平均每分鐘可以做數(shù)百個(gè)操作(APM)。這遠(yuǎn)遠(yuǎn)少于大多數(shù)現(xiàn)有的機(jī)器人,它們獨(dú)立控制每個(gè)單元,并始終保持?jǐn)?shù)千甚至數(shù)萬(wàn)個(gè)APM。
在與TLO和MaNa的比賽中,AlphaStar的平均APM約為280,遠(yuǎn)低于職業(yè)選手,不過(guò)它的動(dòng)作可能更精確。
造成APM較低的部分原因是AlphaStar使用回放開始訓(xùn)練,因此模仿了人類玩游戲的方式。此外,AlphaStar的反應(yīng)在觀察和行動(dòng)之間的平均延遲350ms。
在與TLO和MaNa對(duì)弈過(guò)程中,AlphaStar通過(guò)原始界面與星際爭(zhēng)霸2引擎連接,這就意味著它可以直接在地圖上觀察自己的屬性和對(duì)手的可見單位,而無(wú)需移動(dòng)相機(jī)。
相比之下,人類玩家必須明確管理“注意力經(jīng)濟(jì)(economy of attention)”,并決定在哪里對(duì)焦相機(jī)。
然而,對(duì)AlphaStar游戲的分析表明,它管理著一種隱性的注意力焦點(diǎn)。平均而言,智能體每分鐘“切換內(nèi)容”約30次,類似于MaNa或TLO的操作。
此外,在比賽之后,DeepMind還開發(fā)了AlphaStar的第二個(gè)版本。和人類玩家一樣,這個(gè)版本的AlphaStar會(huì)選擇何時(shí)何地移動(dòng)攝像頭,它的感知僅限于屏幕上的信息,行動(dòng)地點(diǎn)也僅限于它的可視區(qū)域。
DeepMind訓(xùn)練了兩個(gè)新智能體,一個(gè)使用raw interface,另一名必須學(xué)會(huì)控制攝像頭,以對(duì)抗AlphaStar League。
每個(gè)智能體最初都是通過(guò)從人類數(shù)據(jù)中進(jìn)行監(jiān)督學(xué)習(xí),然后按照強(qiáng)化學(xué)習(xí)過(guò)程進(jìn)行訓(xùn)練的。使用攝像頭界面的AlphaStar版本幾乎和raw interface一樣強(qiáng)大,在DeepMind內(nèi)部排行榜上超過(guò)了7000 MMR。
在表演賽中,MaNa用camera interface擊敗了AlphaStar的一個(gè)原型版本,這個(gè)interface只訓(xùn)練了7天。
這些結(jié)果表明,AlphaStar對(duì)MaNa和TLO的成功實(shí)際上是由于優(yōu)越的宏觀和微觀戰(zhàn)略決策,而不是快速的操作、更快的反應(yīng)時(shí)間或raw interface。
人類挑戰(zhàn)20年,AI攻下星際爭(zhēng)霸有五大困難
游戲規(guī)則規(guī)定,玩家必須選擇三種不同的外星“種族”中的一種——蟲族、神族或人族,它們都有各自的特點(diǎn)和能力(盡管職業(yè)玩家往往只專注于一種種族)。每個(gè)玩家從一些工作單元開始,收集基本資源來(lái)構(gòu)建更多的單元和結(jié)構(gòu)并創(chuàng)造新技術(shù),這些反過(guò)來(lái)又允許玩家獲取其他資源,建立更復(fù)雜的基地和結(jié)構(gòu),并開發(fā)新的能力,可以用來(lái)智勝對(duì)手。
游戲的難度在于,要想取勝,玩家必須在宏觀經(jīng)濟(jì)的宏觀管理和微觀個(gè)體的控制之間保持謹(jǐn)慎的平衡。
平衡短期和長(zhǎng)期目標(biāo)以及適應(yīng)意外情況的需要對(duì)往往脆弱和缺乏靈活性的系統(tǒng)提出了巨大的挑戰(zhàn)。要想解決這個(gè)問(wèn)題,需要突破AI研究的幾個(gè)挑戰(zhàn),包括:
游戲理論:《星際爭(zhēng)霸》是一款像剪刀石頭布一樣是沒(méi)有最佳策略的游戲。因此,AI過(guò)程需要不斷探索和拓展戰(zhàn)略知識(shí)的前沿。
不完全信息:不像國(guó)際象棋或圍棋那樣,玩家什么信息都能看到,關(guān)鍵信息對(duì)星際玩家是隱藏的,必須通過(guò)“偵察”來(lái)主動(dòng)發(fā)現(xiàn)。
長(zhǎng)期規(guī)劃:像許多現(xiàn)實(shí)世界中的問(wèn)題一樣,因果關(guān)系不是瞬間產(chǎn)生的。游戲也可以在任何地方花費(fèi)一個(gè)小時(shí)完成,這意味著在游戲早期采取的行動(dòng)可能在很長(zhǎng)一段時(shí)間內(nèi)都不會(huì)有回報(bào)。
實(shí)時(shí):不像傳統(tǒng)的棋類游戲,玩家在接下來(lái)的動(dòng)作之間交替,《星際爭(zhēng)霸》玩家必須隨著游戲時(shí)間的推移不斷地執(zhí)行動(dòng)作。
大型活動(dòng)空間:數(shù)百個(gè)不同的單元和建筑必須同時(shí)被實(shí)時(shí)控制,從而形成一個(gè)可能性組合空間。
正是由于這些巨大的挑戰(zhàn),星際爭(zhēng)霸已經(jīng)成為人工智能研究的“大挑戰(zhàn)”。自2009年發(fā)布BroodWar API以來(lái),《星際爭(zhēng)霸》和《星際爭(zhēng)霸2》的競(jìng)賽一直在進(jìn)行,包括AIIDE星際爭(zhēng)霸AI競(jìng)賽、CIG星際爭(zhēng)霸競(jìng)賽、學(xué)生星際爭(zhēng)霸AI競(jìng)賽和《星際爭(zhēng)霸2》AI階梯賽。
DeepMind在2016年和2017年與暴雪合作發(fā)布了一套名為PySC2的開源工具,其中包括有史以來(lái)最大的一組匿名游戲回放。
現(xiàn)在,經(jīng)過(guò)兩年的打造,繼AlphaGo之后,DeepMind剛剛問(wèn)世的AlphaStar已經(jīng)取得了飛速進(jìn)展。
-
AI
+關(guān)注
關(guān)注
87文章
31613瀏覽量
270422 -
DeepMind
+關(guān)注
關(guān)注
0文章
131瀏覽量
10949
原文標(biāo)題:AlphaStar 稱霸星際爭(zhēng)霸2!AI史詩(shī)級(jí)勝利,DeepMind再度碾壓人類
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
5000億美元!美國(guó)啟動(dòng)“星際之門”AI基建計(jì)劃
DeepMind創(chuàng)始人預(yù)計(jì)年內(nèi)有AI設(shè)計(jì)藥物進(jìn)入臨床試驗(yàn)
谷歌加速AI部門整合:AI Studio團(tuán)隊(duì)并入DeepMind
【書籍評(píng)測(cè)活動(dòng)NO.55】AI Agent應(yīng)用與項(xiàng)目實(shí)戰(zhàn)
AI跑分超8000,天璣9400憑實(shí)力碾壓一眾旗艦芯片
![<b class='flag-5'>AI</b>跑分超8000,天璣9400憑實(shí)力<b class='flag-5'>碾壓</b>一眾旗艦芯片](https://file1.elecfans.com//web3/M00/05/89/wKgZO2eApM-AUu7lAAClX4fdpoc435.png)
馬斯克預(yù)言:AI將全面超越人類智力
AI智能體逼真模擬人類行為
特斯拉史詩(shī)級(jí)計(jì)劃再啟:馬斯克揭秘Master Plan 4
智謀紀(jì) AI+Multi LED 打開人類健康新寶藏
![智謀紀(jì) <b class='flag-5'>AI</b>+Multi LED 打開<b class='flag-5'>人類</b>健康新寶藏](https://file1.elecfans.com//web2/M00/EF/09/wKgZomZvujWALMrpABM4w_VS1N454.jpeg)
谷歌DeepMind推出新一代藥物研發(fā)AI模型AlphaFold 3
海辰儲(chǔ)能再度獲評(píng)BNEF Tier 1全球一級(jí)儲(chǔ)能廠商
微軟和OpenAI計(jì)劃投資1000億美元建造“星際之門”AI超級(jí)計(jì)算機(jī)
谷歌DeepMind推出SIMI通用AI智能體
谷歌DeepMind推新AI模型Genie,能生成2D游戲平臺(tái)
富士通發(fā)布最新的人工智能(AI)戰(zhàn)略,聚焦深化人類與AI之間的協(xié)作
![富士通發(fā)布最新的人工智能(<b class='flag-5'>AI</b>)戰(zhàn)略,聚焦深化<b class='flag-5'>人類</b>與<b class='flag-5'>AI</b>之間的協(xié)作](https://file1.elecfans.com/web2/M00/C1/68/wKgaomXVviaAPv57AAAxcbEkp80444.png)
評(píng)論