穿越小说完本,将夜猫腻小说,欢乐颂小说结局

用AI攻占了國際象棋和圍棋高地之后，DeepMind在第一人稱射擊游戲（FPS）上也有了新進展。

1997年5月“深藍”擊敗國際象棋世界冠軍卡斯巴羅夫，有玩家在慶幸，我不下象棋，只下圍棋。

2017年5月AlphaGo打敗圍棋世界冠軍柯潔，有玩家慶幸，還好，我不下棋。

2018年6月，OpenAI 人工智能在dota2 5V5模式中以4000分水平擊敗人類玩家，依舊有玩家慶幸，我不玩RPG（角色扮演）對戰，我只玩FPS（第一人稱射擊）。

如今，FPS也被AI攻陷。

近日，DeepMind的研究人員在本周的《科學》雜志上發表了一篇論文，描述描述了一個完全無監督的自學程序，不僅能夠學習如何玩“ Quake III Arena ”（雷神之錘III競技場，一款第一人稱射擊游戲），還能設計出勝過人類團隊的新穎戰略。

國際象棋和圍棋最初是用來模擬戰爭游戲的，但卻對戰爭復盤的不好。因為這類游戲通常涉及一個或多個隊友和敵人。而且一個優秀的戰爭游戲必然是三維展開。

DeepMind使用的AI叫For The Win（FTW），本質是用卷積神經網絡直接通過屏幕上進行訓練，屏幕數據會被傳遞到兩個LSTM網絡或能夠學習長期依賴性的網絡。這兩個LSTM一個是在快速時間尺度上，另一個是在慢速時間尺度上運行。它們通過目標耦合，能夠對游戲世界進行預測并通過模擬游戲控制器輸出動作。

FTW總共訓練了30個游戲角色，為他們提供了一系列隊友和對手，并隨機選擇游戲階段，以防止他們通過記憶慣性做出選擇。每個角色都明確自己的獎勵信號，從而擁有自己獨特的目標（比如奪取旗幟）。此外，他們利用雙層流程（two-tier process）來優化內部獎勵，通過這些獎勵加強學習，來制定最重要的游戲策略。每個角色都單獨玩了大約450,000場比賽，相當于擁有大約四年的經驗。

訓練過后的FTW在地圖，團隊名單和團隊規模選擇方面都可以作出有利的選擇。他們學習了類似人類的行為，例如跟隨隊友，在對手的基地露營，以及在一波攻擊中捍衛他們自己的基地。而隨著訓練的進行，他們還學會避免人類玩家的一些弱點，比如過于關注隊友的行為。

在一場有40名人類參加的比賽中，人類和AI在比賽中隨機匹配（對手或隊友），結果，AI大勝人類玩家，FTW的Elo評級（相當于獲勝的概率）為1600，而最好的人類玩家也只有1300，人類玩家平均評級為1050。

倫敦全球大學計算機科學教授，DeepMind科學家Thore Graepel表示，這項工作顯示了多智能體培訓（multiagent）推動人工智能發展的潛力。這是人機交互和系統相互補充或協同工作的研究的一個重大進步。

AI訓練思路

游戲分為兩個陣營，兩方的大本營在游戲時候開會隨機設置在地圖的兩端。游戲中的玩家可以在游戲地圖中“瞎逛”，借助地圖中的建筑物、數目以及其他物品與玩家進行互動。

在游戲中，如果一方用激光擊敗了其他玩家，被擊中的玩家丟掉旗幟，回大本營重生。

DeepMind采用的AI玩家會和人類有同樣的視角，AI不知道其他玩家的信息，包括位置、狀態等。另外這款游戲比其他棋牌游戲更能接近真實的戰場。AI玩家從零開始，用強化學習訓練，在游戲的開始，真實加入戰場的AI角色是隨機選擇的，這會使得智能體的行為更能接近最初設置的策略目標。

每個智能體都能夠為自己制定策略，這意味著不同角色會采用不同的戰術，即不同AI玩家有不同的專攻方向。

當然，也會有限制，即在每1000次迭代后，系統會比較策略并評估整個團隊在模仿與學習能力。如果一個智能體的獲勝機會低于另一個智能體的70％，那么較弱的智能體會復制較強的智能體。同時，強化學習還要求AI通過其他指標的對比進行調整。

AI玩家在一開始就像一張白紙，研究人員給他們的目標不僅是游戲結束時候的得分，還要關注在游戲前期的得分。研究人員指出，如果獎勵機制只和游戲結果有關（輸/贏/平局），顯然限制太少，導致學習效果非常不好，所以需要考慮動態的獎勵機制，即根據游戲的點數流來變動。

當初始位置是隨機生成時，AI通常擊敗人類玩家。即使人類已經練習了12個小時，他們仍然能夠贏得25％的比賽，平局6%，剩下的是負。

然而，當兩名職業游戲測試人員得到一張特別復雜的地圖時，這張地圖AI并沒有見過。重新讓AI在這張地圖上訓練的話，只需要6個小時的訓練就能脫穎而出。

這一結果沒有在論文說明，而是在向新聞界提供的一份補充文件中作了說明。

目前人們仍然可以在經過精心設計的定位戰中擊敗AI，因為現實生活很少提供這樣復盤重來的機會，畢竟淮海戰役只能打一次！

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
88

文章
34589

瀏覽量
276236
DeepMind

DeepMind

+關注

關注
0

文章
131

瀏覽量
11437

原文標題：Science最新：DeepMind部署自學AI，攻陷FPS“雷神之錘”

文章出處：【微信號：smartman163，微信公眾號：網易智能】歡迎添加關注！文章轉載請注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

DeepMind部署自學AI 攻陷FPS“雷神之錘”

評論