用AI攻占了國際象棋和圍棋高地之后,DeepMind在第一人稱射擊游戲(FPS)上也有了新進展。
1997年5月“深藍”擊敗國際象棋世界冠軍卡斯巴羅夫,有玩家在慶幸,我不下象棋,只下圍棋。
2017年5月AlphaGo打敗圍棋世界冠軍柯潔,有玩家慶幸,還好,我不下棋。
2018年6月,OpenAI 人工智能在dota2 5V5模式中以4000分水平擊敗人類玩家,依舊有玩家慶幸,我不玩RPG(角色扮演)對戰,我只玩FPS(第一人稱射擊)。
如今,FPS也被AI攻陷。
近日,DeepMind的研究人員在本周的《科學》雜志上發表了一篇論文,描述描述了一個完全無監督的自學程序,不僅能夠學習如何玩“ Quake III Arena ”(雷神之錘III競技場,一款第一人稱射擊游戲),還能設計出勝過人類團隊的新穎戰略。
國際象棋和圍棋最初是用來模擬戰爭游戲的,但卻對戰爭復盤的不好。因為這類游戲通常涉及一個或多個隊友和敵人。而且一個優秀的戰爭游戲必然是三維展開。
DeepMind使用的AI叫For The Win(FTW),本質是用卷積神經網絡直接通過屏幕上進行訓練,屏幕數據會被傳遞到兩個LSTM網絡或能夠學習長期依賴性的網絡。這兩個LSTM一個是在快速時間尺度上,另一個是在慢速時間尺度上運行。它們通過目標耦合,能夠對游戲世界進行預測并通過模擬游戲控制器輸出動作。
FTW總共訓練了30個游戲角色,為他們提供了一系列隊友和對手,并隨機選擇游戲階段,以防止他們通過記憶慣性做出選擇。每個角色都明確自己的獎勵信號,從而擁有自己獨特的目標(比如奪取旗幟)。此外,他們利用雙層流程(two-tier process)來優化內部獎勵,通過這些獎勵加強學習,來制定最重要的游戲策略。每個角色都單獨玩了大約450,000場比賽,相當于擁有大約四年的經驗。
訓練過后的FTW在地圖,團隊名單和團隊規模選擇方面都可以作出有利的選擇。他們學習了類似人類的行為,例如跟隨隊友,在對手的基地露營,以及在一波攻擊中捍衛他們自己的基地。而隨著訓練的進行,他們還學會避免人類玩家的一些弱點,比如過于關注隊友的行為。
在一場有40名人類參加的比賽中,人類和AI在比賽中隨機匹配(對手或隊友),結果,AI大勝人類玩家,FTW的Elo評級(相當于獲勝的概率)為1600,而最好的人類玩家也只有1300,人類玩家平均評級為1050。
倫敦全球大學計算機科學教授,DeepMind科學家Thore Graepel表示,這項工作顯示了多智能體培訓(multiagent)推動人工智能發展的潛力。這是人機交互和系統相互補充或協同工作的研究的一個重大進步。
AI訓練思路
游戲分為兩個陣營,兩方的大本營在游戲時候開會隨機設置在地圖的兩端。游戲中的玩家可以在游戲地圖中“瞎逛”,借助地圖中的建筑物、數目以及其他物品與玩家進行互動。
在游戲中,如果一方用激光擊敗了其他玩家,被擊中的玩家丟掉旗幟,回大本營重生。
DeepMind采用的AI玩家會和人類有同樣的視角,AI不知道其他玩家的信息,包括位置、狀態等。另外這款游戲比其他棋牌游戲更能接近真實的戰場。AI玩家從零開始,用強化學習訓練,在游戲的開始,真實加入戰場的AI角色是隨機選擇的,這會使得智能體的行為更能接近最初設置的策略目標。
每個智能體都能夠為自己制定策略,這意味著不同角色會采用不同的戰術,即不同AI玩家有不同的專攻方向。
當然,也會有限制,即在每1000次迭代后,系統會比較策略并評估整個團隊在模仿與學習能力。如果一個智能體的獲勝機會低于另一個智能體的70%,那么較弱的智能體會復制較強的智能體。同時,強化學習還要求AI通過其他指標的對比進行調整。
AI玩家在一開始就像一張白紙,研究人員給他們的目標不僅是游戲結束時候的得分,還要關注在游戲前期的得分。研究人員指出,如果獎勵機制只和游戲結果有關(輸/贏/平局),顯然限制太少,導致學習效果非常不好,所以需要考慮動態的獎勵機制,即根據游戲的點數流來變動。
當初始位置是隨機生成時,AI通常擊敗人類玩家。即使人類已經練習了12個小時,他們仍然能夠贏得25%的比賽,平局6%,剩下的是負。
然而,當兩名職業游戲測試人員得到一張特別復雜的地圖時,這張地圖AI并沒有見過。重新讓AI在這張地圖上訓練的話,只需要6個小時的訓練就能脫穎而出。
這一結果沒有在論文說明,而是在向新聞界提供的一份補充文件中作了說明。
目前人們仍然可以在經過精心設計的定位戰中擊敗AI,因為現實生活很少提供這樣復盤重來的機會,畢竟淮海戰役只能打一次!
-
AI
+關注
關注
87文章
31613瀏覽量
270422 -
DeepMind
+關注
關注
0文章
131瀏覽量
10949
原文標題:Science最新:DeepMind部署自學AI,攻陷FPS“雷神之錘”
文章出處:【微信號:smartman163,微信公眾號:網易智能】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論