在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

人類為何會輸給進(jìn)階版“AI英雄”?

電子工程師 ? 來源:未知 ? 作者:胡薇 ? 2018-08-07 08:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

去年,OpenAI 在 DOTA 的 1v1 比賽中戰(zhàn)勝了職業(yè)玩家 Dendi,而在距離進(jìn)階版 OpenAI Five 系統(tǒng)戰(zhàn)勝人類業(yè)余玩家不過一個(gè)月的時(shí)間,今天凌晨,它又以 2:1 的戰(zhàn)績再次完成對人類高級玩家的“屠殺”,GG(人類贏的最后一局純屬耍賴)。

相比之下,人類這次輸給的是怎樣的進(jìn)階版“AI 英雄”?

此次,OpenAI Five 對陣 5 個(gè)高級玩家(解說員+前職業(yè)玩家)——Blitz, Cap, Fogged, Merlini 和 Moonmeander,他們的平均天梯分 6000 以上。反觀 OpenAI Five,根據(jù)公開資料,它的實(shí)力相當(dāng)于人類玩了 180 年的游戲,而且每天都與自己進(jìn)行對抗學(xué)習(xí),學(xué)習(xí)過程非常復(fù)雜,需要在 256 個(gè) GPU 和 128,000 個(gè) CPU 上運(yùn)行擴(kuò)展版本的近端策略優(yōu)化(PPO)進(jìn)行訓(xùn)練。

它對每個(gè)英雄使用了單獨(dú)的 LSTM(長短期記憶遞歸神經(jīng)網(wǎng)絡(luò)),并且沒有人類數(shù)據(jù),它會學(xué)習(xí)可識別的策略,這表明強(qiáng)化學(xué)習(xí)可以產(chǎn)生可實(shí)現(xiàn)規(guī)模的長期規(guī)劃。

此外,就應(yīng)用環(huán)境而言,不同于棋牌游戲的固定規(guī)則,像 DOTA2 這樣的復(fù)雜視頻游戲是 5v5 對決的戰(zhàn)略游戲,況且,DOTA 游戲已經(jīng)不斷開發(fā)了十幾年,游戲邏輯中有數(shù)十萬行代碼,且每兩周更新一次,游戲語義在不斷產(chǎn)生變化。

因此,AI 玩 DOTA 的難度可想而知,它首先需要解決以下四大問題:長時(shí)視野;局部觀察狀態(tài);高維、連續(xù)的動作空間;高維、連續(xù)的觀察空間。

▌模型架構(gòu)

OpenAI Five 的每個(gè)網(wǎng)絡(luò)都包含一個(gè)單層的、1024-unit 的 LSTM,它可以查看當(dāng)前的游戲狀態(tài)(從 Valve 的 Bot API 中抓取),并通過幾個(gè)可能的 action heads 發(fā)出動作。每個(gè) head 都具有語義含義,例如延遲動作的刻度數(shù),選擇哪一個(gè)動作,該動作在單元周圍網(wǎng)格中的 X 或 Y 坐標(biāo)等。Action heads 是獨(dú)立計(jì)算的。

OpenAI Five 使用觀察空間(observation space)和動作空間(action space)進(jìn)行交互式演示。OpenAI Five 將世界視為 20000 個(gè)數(shù)字的列表,并通過發(fā)出一個(gè)包含 8 個(gè)枚舉值(enumeration values)的列表來執(zhí)行操作。通過選擇不同的行動和目標(biāo),我們可以了解 OpenAI Five 如何編碼每個(gè)動作,以及如何觀察世界。下圖是人類會看到的場景。

OpenAI Five 可以對與它所看到的相關(guān)的丟失狀態(tài)片段做出反應(yīng)。例如,直到最近,OpenAI Five 的觀察區(qū)域才包括狙擊手的技能范圍(子彈落在敵人身上的區(qū)域)。然而,我們觀察到 OpenAI Five 可以學(xué)習(xí)走出(雖然不能避免進(jìn)入)狙擊手的技能范圍,因?yàn)楫?dāng)進(jìn)入這個(gè)區(qū)域時(shí),它可以看到自己的血量是在減少的。

▌探索

就算有學(xué)習(xí)算法能夠處理較長的視野,我們?nèi)匀恍枰獙Νh(huán)境進(jìn)行探索。因?yàn)榧词刮覀冊O(shè)定了各種限制,仍然有數(shù)百種道具、幾十種建筑、法術(shù)、單元類型、長尾游戲機(jī)制,以及因此產(chǎn)生的各種組合,想要有效地探索這個(gè)巨大的空間其實(shí)并不容易。

OpenAI Five 可以從隨機(jī)權(quán)重開始,從自我博弈中學(xué)習(xí)。 為了避免“策略崩潰”,智能體在訓(xùn)練的時(shí)候,80% 的游戲都是自我對抗, 另外 20% 則是與過去的自己進(jìn)行對抗。在自我對抗時(shí),英雄首先會漫無目的繞著地圖游走。經(jīng)過幾個(gè)小時(shí)的訓(xùn)練后,智能體開始有了一些概念,例如建造、中路對線等。幾天之后,他們始終采用基本的人類策略:試圖從對手那里偷走 Bountyrunes等。 通過進(jìn)一步的訓(xùn)練,它們可以熟練掌握 5 個(gè)英雄集中推塔的高級策略。

OpenAI Five 使用了 1v1 機(jī)器人里的隨機(jī)化的方法 。它還使用了一個(gè)新的路線分配(lane assignment)策略。 在每個(gè)訓(xùn)練游戲開始時(shí),他們隨機(jī)地將每個(gè)英雄“分配”到一些 lane 的子集,在到隨機(jī)選擇的時(shí)間之前,如果英雄偏離這些路線,就會受到懲罰。

當(dāng)然,也有獎(jiǎng)勵(lì)來幫助智能體探索環(huán)境,主要包括凈值(net worth)、殺敵數(shù)(kills)、死亡數(shù)(deaths)、助攻(assists)、最后一擊(last hits) 等指標(biāo)。他們通過減少其他團(tuán)隊(duì)的平均獎(jiǎng)勵(lì),來對每個(gè)智能體的獎(jiǎng)勵(lì)進(jìn)行后續(xù)處理,以防止智能體找到正和博弈(positive-sum)的情況。

他們也對道具和技能構(gòu)建進(jìn)行了硬編碼,同時(shí),也通過腳本基線( scripted baseline)引入了信使管理(Courier management)。

▌Rapid

這個(gè)系統(tǒng)的實(shí)現(xiàn)使用了被稱為“Rapid”的通用 RL 訓(xùn)練系統(tǒng),它適用于任何多人模式環(huán)境。

訓(xùn)練系統(tǒng)分為 rolloutworkers,運(yùn)行游戲副本,智能體(agent),用來收集經(jīng)驗(yàn),優(yōu)化器節(jié)點(diǎn)(optimizer nodes)執(zhí)行跨 GPU 組的同步梯度下降。每次訓(xùn)練還包括分別對訓(xùn)練機(jī)器人以及樣本機(jī)器人進(jìn)行評估的組件,以及監(jiān)視軟件,比如 TensorBoard,Sentry 以及 Grafana。

在同步梯度下降運(yùn)算過程中,每一個(gè) GPU 組件都會運(yùn)算自己負(fù)責(zé)的批處理部分的梯度計(jì)算,隨后整體梯度再進(jìn)行平均計(jì)算。他們原本使用消息傳遞借口的規(guī)約算法進(jìn)行平均計(jì)算,現(xiàn)在則使用英偉達(dá)的多卡通型框架 NCCL2 的封裝函數(shù)來實(shí)行 GPU 并行計(jì)算以及網(wǎng)絡(luò)間數(shù)據(jù)傳輸。同步 58MB 大小數(shù)據(jù)(用于 OpenAI Five 的參數(shù))的延遲顯示在表格之中,延遲時(shí)間足夠低能滿足大部分?jǐn)?shù)據(jù)被進(jìn)行并行運(yùn)算的 GPU 標(biāo)記。

▌與人類的不同

OpenAI Five 獲取的信息和人類完全一致,但是系統(tǒng)能馬上反應(yīng)到類似位置、生命值以及物品更新情況等等人類玩家需要定時(shí)觀察的信息。OpenAI Five 的平均 APM 在 150-170 之間(理論上最快可以達(dá)到 450 考慮到每四幀一動),平均反應(yīng)時(shí)間為 80 毫秒,比人類平均速度要快很多。

很多職業(yè)選手在去年 TI 結(jié)束后都使用 bot 進(jìn)行訓(xùn)練。根據(jù) Blitz 的說法 solo bot已經(jīng)改變了人們對 solo 賽節(jié)奏的看法,bot 偏向于快節(jié)奏風(fēng)格,現(xiàn)在大多數(shù)選手也已經(jīng)使用快節(jié)奏風(fēng)格來和 bot 抗衡。

AI 在 Dota2 中的節(jié)奏和執(zhí)行力非常強(qiáng)了,這是不是意味著它沒有優(yōu)化空間了?當(dāng)然不是,此次的 OpenAI Five 還是有諸多限制,比如系統(tǒng)在進(jìn)行最后一擊時(shí)較弱,其客觀優(yōu)先級與一個(gè)共同的專業(yè)策略相匹配,獲得戰(zhàn)略地圖控制等長期獎(jiǎng)勵(lì)往往需要犧牲短期獎(jiǎng)勵(lì)。

Open AI 方面稱,在今年后續(xù)的 TI 表演賽上,還會有職業(yè)玩家繼續(xù)挑戰(zhàn) AI,但結(jié)果想來也是實(shí)力“嘲諷”人類。或許,更讓人期待的是,在 Dota2 這樣的復(fù)雜游戲中,是否會出現(xiàn)“AI vs AI”的神仙打架比賽?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4813

    瀏覽量

    103421
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    34995

    瀏覽量

    278671

原文標(biāo)題:Dota2團(tuán)戰(zhàn)實(shí)力蔑視人類,解剖5只“AI英雄”

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    逆變電源,你了解嗎?它為何成為現(xiàn)代生活的“隱形英雄”?

    逆變電源是現(xiàn)代生活中不可或缺的“隱形英雄”。它在日常生活中為我們提供便利,在突發(fā)情況下也能保障安全。隨著技術(shù)不斷進(jìn)步,它的前景更加廣闊,未來將在我們的綠色生活中發(fā)揮更大的作用。引起用戶的興趣和共鳴。
    的頭像 發(fā)表于 06-17 14:19 ?400次閱讀
    逆變電源,你了解嗎?它<b class='flag-5'>為何</b>成為現(xiàn)代生活的“隱形<b class='flag-5'>英雄</b>”?

    這個(gè)超強(qiáng)AI模型!開始不聽人類指令,拒絕關(guān)閉!

    這項(xiàng)研究,并表示尚不清楚OpenAI的軟件為何違抗命令。 ? Palisade表示,o3模型破壞了一個(gè)用于關(guān)閉系統(tǒng)的機(jī)制,以阻止自身被關(guān)閉。OpenAI的另外兩個(gè)模型o4-mini及Codex-mini也表現(xiàn)出與o3一樣的、無視直接關(guān)閉指令的能力。 ? 該機(jī)構(gòu)認(rèn)為,
    的頭像 發(fā)表于 05-28 00:06 ?6527次閱讀

    RK3568驅(qū)動指南|驅(qū)動基礎(chǔ)進(jìn)階篇-進(jìn)階7 向系統(tǒng)中添加一個(gè)系統(tǒng)調(diào)用

    RK3568驅(qū)動指南|驅(qū)動基礎(chǔ)進(jìn)階篇-進(jìn)階7 向系統(tǒng)中添加一個(gè)系統(tǒng)調(diào)用
    的頭像 發(fā)表于 05-21 14:15 ?265次閱讀
    RK3568驅(qū)動指南|驅(qū)動基礎(chǔ)<b class='flag-5'>進(jìn)階</b>篇-<b class='flag-5'>進(jìn)階</b>7 向系統(tǒng)中添加一個(gè)系統(tǒng)調(diào)用

    AI時(shí)代:不可替代的“人類+”職業(yè)技能

    當(dāng)生成式人工智能能夠撰寫報(bào)告、編寫代碼甚至設(shè)計(jì)產(chǎn)品時(shí),一個(gè)根本性的焦慮開始蔓延:人類工作者是否正在被算法取代?這個(gè)問題的答案或許比簡單的“是”或“否”更為復(fù)雜——AI確實(shí)在重塑職業(yè)版圖,但真正的挑戰(zhàn)
    的頭像 發(fā)表于 05-20 16:13 ?198次閱讀

    【「零基礎(chǔ)開發(fā)AI Agent」閱讀體驗(yàn)】+ 入門篇學(xué)習(xí)

    10.AI Agent開發(fā)模式走向了零代碼可視化模式(需要我們程序員對此有著觀念上的轉(zhuǎn)變),但是掌握編程技術(shù),有助于AI Agent的開發(fā)進(jìn)階
    發(fā)表于 05-02 09:26

    飛思儀表亮相2025年空壓機(jī)行業(yè)英雄鄭州站

    近日,空壓行業(yè)英雄第二站在河南鄭州隆重舉行!行業(yè)精英齊聚,共襄盛舉。
    的頭像 發(fā)表于 04-23 11:45 ?431次閱讀

    飛思儀表亮相2025年空壓機(jī)行業(yè)英雄南京站

    2025年新一輪空壓機(jī)行業(yè)英雄以“鏈接新機(jī)遇 共建新未來”為主旨。近三十家空壓機(jī)行業(yè)整機(jī)、后處理、配件、數(shù)字技術(shù)等知名品牌廠商和節(jié)能服務(wù)商,與江蘇地區(qū)的百余名代理商一起探討行業(yè)動態(tài)及趨勢。
    的頭像 發(fā)表于 03-18 16:06 ?534次閱讀

    20個(gè)DAC8581為何調(diào)試一就燒壞了,發(fā)燙?

    我這個(gè)月買了20個(gè)DAC8581為何調(diào)試一就燒壞了,發(fā)燙。調(diào)試的時(shí)候還能正常工作呢,但是很多時(shí)候一開電源就發(fā)現(xiàn)不能工作,IC發(fā)燙。
    發(fā)表于 01-23 07:10

    名單公布!【書籍評測活動NO.55】AI Agent應(yīng)用與項(xiàng)目實(shí)戰(zhàn)

    日程預(yù)測性地調(diào)整了今天的工作安排。 在近日的Agent OpenDay上,智譜AI展示了在AI Agent(智能體)方面最新成果,發(fā)布了用AI替代人類執(zhí)行任務(wù)的三款智能體,分別是面向手
    發(fā)表于 01-13 11:04

    飛思儀表亮相2024年空壓機(jī)英雄深圳站

    近日,2024年最后一場空壓機(jī)行業(yè)英雄會在廣東深圳圓滿落幕! 2024年英雄以“空壓新模式 渠道新收益”為主旨。空壓行業(yè)新老品牌匯聚廣東深圳,以更強(qiáng)的陣容、更新的技術(shù)、更多樣化的理念輻射整個(gè)華南地區(qū)。
    的頭像 發(fā)表于 12-30 10:09 ?546次閱讀

    馬斯克預(yù)言:AI將全面超越人類智力

    近日,科技巨頭馬斯克作出了一個(gè)關(guān)于人工智能(AI)的大膽預(yù)測。他斷言,AI的發(fā)展速度將超乎人類的想象,并將在不久的將來全面超越人類的智力。 馬斯克在X平臺上明確表示,
    的頭像 發(fā)表于 12-28 14:23 ?731次閱讀

    請問ADC的電源產(chǎn)生的噪聲為何反應(yīng)在ADC輸出數(shù)據(jù)的頻譜上?

    請問ADC的電源產(chǎn)生的噪聲為何反應(yīng)在ADC輸出數(shù)據(jù)的頻譜上,有沒有講這類原理的書? 因?yàn)榭戳撕芏嗾撐模皇墙o出了結(jié)論,沒有說為什么。 求大家推薦一本書,謝謝。
    發(fā)表于 12-05 08:09

    HUAWEI Mate系列旗艦新品發(fā)布:小藝再進(jìn)階解鎖更多創(chuàng)新AI功能

    與 OS 深度融合,構(gòu)筑全新鴻蒙原生智能框架。AI 能力與操作系統(tǒng)深度融合,小藝也完成了向系統(tǒng)級智能體的升級,有著強(qiáng)大的推理規(guī)劃能力、知識問答能力、記憶能力等。在 Mate 系列新機(jī)的加持下,小藝能力再進(jìn)階
    的頭像 發(fā)表于 11-27 09:36 ?1273次閱讀
    HUAWEI Mate系列旗艦新品發(fā)布:小藝再<b class='flag-5'>進(jìn)階</b>解鎖更多創(chuàng)新<b class='flag-5'>AI</b>功能

    AI智能體逼真模擬人類行為

    近日,據(jù)外媒最新報(bào)道,斯坦福大學(xué)、華盛頓大學(xué)與Google DeepMind的科研團(tuán)隊(duì)攜手合作,成功開發(fā)出一種能夠高度逼真模擬人類行為的AI智能體。 該智能體的構(gòu)建得益于研究團(tuán)隊(duì)將詳細(xì)的訪談記錄
    的頭像 發(fā)表于 11-26 10:24 ?847次閱讀

    為何這個(gè)電路L2電感接上后鋰電短路?

    看一下為何這個(gè)L2電感接上后鋰電短路,但不接5407的8腳vout又沒有輸出0電壓,只有插上vin輸入才有5v輸出
    發(fā)表于 09-30 14:10
    主站蜘蛛池模板: 狠狠干干| 狠狠干天天 | 天天干天天日天天射天天操毛片 | 网站在线你懂的 | 天天干天天日天天射天天操毛片 | 免费的黄视频 | 黄色视屏免费在线观看 | 国产福利资源 | 最近高清免费观看视频 | 日本xxwwxxww视频免费丝袜 | 一级特级毛片免费 | jizz免费一区二区三区 | 在线欧美色 | 亚洲qingse中文久久网 | 日韩欧美中文字幕在线播放 | 久久天天躁狠狠躁狠狠躁 | 天天干天天操天天碰 | 亚洲一区二区三区免费 | 最近的中文字幕免费动漫视频 | 亚洲高清免费在线观看 | 俄罗斯久久 | 一区二区三区欧美在线 | 中文字幕777 | 99久久无色码中文字幕 | 在线a免费观看最新网站 | 欧亚激情偷乱人伦小说视频 | 国产美女视频免费 | 欧美夜夜夜 | 性欧美欧美之巨大69 | 欧美一区二区三区男人的天堂 | 狠狠躁夜夜躁人人爽天天miya | 亚洲综合精品成人啪啪 | 国产激情视频一区二区三区 | 九九免费久久这里有精品23 | 日本特黄特色视频 | 你懂的免费在线视频 | 中国xxxxx高清免费看视频 | 午夜看看| 在线观看三级网站 | 视频在线观看一区二区三区 | 你懂得在线播放 |