在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepMind用新方法讓智能體在復(fù)雜的非對(duì)稱博弈里找到納什均衡

mK5P_AItists ? 2018-01-19 10:21 ? 次閱讀

隨著人工智能系統(tǒng)在現(xiàn)實(shí)世界中扮演越來越重要的角色,理解不同的系統(tǒng)如何相互作用至關(guān)重要。

剛剛,DeepMind發(fā)表了一篇名為Symmetric Decomposition of Asymmetric Games的論文。在這篇論文中,DeepMind研究人員采用了博弈論的分支試圖這個(gè)問題。

研究人員重點(diǎn)觀察了在德州撲克,棋盤游戲蘇格蘭特警等非對(duì)稱博弈中,兩個(gè)智能體會(huì)有怎樣的行為和表現(xiàn)。

用這種新方法,智能體能簡(jiǎn)單快速地在復(fù)雜的非對(duì)稱博弈里找到納什均衡。

博弈與納什均衡

博弈論屬于數(shù)學(xué)的一個(gè)分支,用于分析競(jìng)爭(zhēng)環(huán)境下決策者的策略。

這套理論適用于人類,動(dòng)物,以及超過一個(gè)AI時(shí)的多AI環(huán)境。比如說家里多個(gè)機(jī)器人同時(shí)打掃房間。

非對(duì)稱信息博弈模擬了真實(shí)世界的場(chǎng)景,就像拍賣時(shí)買家和賣家的心態(tài)和動(dòng)機(jī)不同。我們得到的結(jié)果給了我們獨(dú)道的見解,以及極其簡(jiǎn)潔的方式分析他們。

非對(duì)稱博弈的特點(diǎn)是每方玩家都有不同的策略、目標(biāo)和獎(jiǎng)勵(lì)。比如說博弈論研究里最常見的協(xié)調(diào)博弈,性別之戰(zhàn)。

一般來說,多AI系統(tǒng)的進(jìn)化動(dòng)態(tài)過程是用簡(jiǎn)單的對(duì)稱博弈來分析,比如說經(jīng)典的囚徒困境,兩方玩家都可以采取同樣的行動(dòng)。即使這些博弈能夠?yàn)槎郃I系統(tǒng)提供有效的洞見,告訴我們?nèi)绾尾僮魉型婕也拍塬@得最優(yōu)結(jié)果(這就是納什均衡),但他們并不能模擬出所有的情況。

DeepMind的新的方法,能簡(jiǎn)單快速地在復(fù)雜的非對(duì)稱博弈里找到納什均衡。

雖然目前這套理論的重點(diǎn)還在如何應(yīng)用在多個(gè)AI系統(tǒng)的互動(dòng)中,但研究人員相信這個(gè)結(jié)論也可以用于經(jīng)濟(jì)、進(jìn)化生物學(xué)、經(jīng)驗(yàn)博弈論中。

歌劇還是電影?

舉個(gè)例子吧。

兩名玩家需要決定晚上是去看歌劇還是電影,不巧的是,其中一名偏好歌劇而另一名偏好電影。這是場(chǎng)不對(duì)稱的游戲,雖然兩名玩家可以任意選擇,但是根據(jù)玩家的喜好,每個(gè)玩家得到獎(jiǎng)勵(lì)是不同的。

但是,為了維持他們的友誼,或者我們稱為一種平衡,雙方需要選擇相同的活動(dòng),因此單獨(dú)行動(dòng)的回報(bào)為零。

這個(gè)游戲有三個(gè)平衡:(i)雙方都去看歌劇,(ii)雙方去看電影,(iii)還有一個(gè)混合選項(xiàng),每個(gè)玩家在五分之三的時(shí)間里選擇他們喜歡的選項(xiàng)。

這個(gè)“不穩(wěn)定的”的最后一個(gè)選項(xiàng),就是用了將不對(duì)稱游戲簡(jiǎn)化或分解成它的對(duì)稱對(duì)等體的方法。

我們可以將這種游戲的本質(zhì)想象成,每個(gè)玩家的獎(jiǎng)勵(lì)分?jǐn)?shù)表是一個(gè)獨(dú)立對(duì)稱的雙玩家游戲,它的平衡點(diǎn)與原始的不對(duì)稱游戲一致。

在下面這張圖中,納什均衡是通過兩個(gè)對(duì)等點(diǎn)得到的,幫助我們快速確定不對(duì)稱博弈中的最優(yōu)策略(a)。反過來說,利用不對(duì)稱博弈來確定對(duì)稱對(duì)等點(diǎn)的均衡。

DeepMind用新方法讓智能體在復(fù)雜的非對(duì)稱博弈里找到納什均衡

△紅點(diǎn)代表納什均衡。對(duì)于不對(duì)稱的游戲(a),納什均衡可以很容易地從(b)和(c)兩張對(duì)稱圖中得到。上述圖中,x、y軸分別為玩家1、2選擇歌劇的概率

好消息是,這種方法也適用于其他游戲,比如Leduc撲克等。這些方法應(yīng)用了一個(gè)簡(jiǎn)單的數(shù)學(xué)原理,從而快速直接分析不對(duì)稱游戲。我們希望它也能幫助我們理解各種動(dòng)態(tài)系統(tǒng),包括多代理環(huán)境。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 博弈論
    +關(guān)注

    關(guān)注

    0

    文章

    8

    瀏覽量

    7347
  • DeepMind
    +關(guān)注

    關(guān)注

    0

    文章

    131

    瀏覽量

    11414
  • 納什均衡
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    1197

原文標(biāo)題:AI博弈論:DeepMind讓智能體在非對(duì)稱博弈中找納什均衡

文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    matlab 如何計(jì)算均衡

    如題 怎樣使用matlab 實(shí)現(xiàn)計(jì)算n人非合作博弈均衡結(jié)果?本人新手中的菜鳥 在網(wǎng)上下了一個(gè)代碼文件,并找了文章,代碼文件按自己的理
    發(fā)表于 03-26 10:10

    蘋果獲得Macbook Pro非對(duì)稱散熱風(fēng)扇設(shè)計(jì)專利

    中去,起到減小噪音的目的,音調(diào)BPF上從聽覺中用戶感覺噪音變小。令風(fēng)扇的葉片分布處于不均衡狀態(tài),并保持葉輪的平衡,能夠起到很好的降低噪音的效果?!备鶕?jù)專利文件所說,對(duì)風(fēng)扇的葉片分布和角度進(jìn)行重新排列
    發(fā)表于 12-23 10:30

    運(yùn)用于matlab中的矩陣求逆的新方法有哪些?。ú皇呛瘮?shù)inv)

    運(yùn)用于matlab中的矩陣求逆的新方法有哪些啊或者考慮矩陣的特殊性質(zhì),比如稀疏、對(duì)稱性,有哪些求逆的新方法可以運(yùn)用?。壳笾?!
    發(fā)表于 01-21 17:10

    轉(zhuǎn)帖:完全Proteus8.0編譯測(cè)試ARM Cortex的最新方法

    本帖最后由 鼓山 于 2013-7-4 14:31 編輯 俺在網(wǎng)上找到的基于Proteus 8.0開發(fā)LM3S ARM Cortex的新方法給碼農(nóng)們分享!
    發(fā)表于 07-04 14:00

    測(cè)電阻,新方法,不加激勵(lì)

    測(cè)電阻,新方法,不加激勵(lì)的辦法有沒有。
    發(fā)表于 03-26 10:44

    一種標(biāo)定陀螺儀的新方法

    一種標(biāo)定陀螺儀的新方法
    發(fā)表于 08-17 12:17

    求大佬分享按鍵掃描的新方法

    求大佬分享按鍵掃描的新方法
    發(fā)表于 01-17 06:50

    基于博弈論的功率控制策略及其牛頓迭代算法

    某系統(tǒng)碼相關(guān)測(cè)距中,每一個(gè)飛機(jī)的詢問信號(hào)都可能會(huì)成為其他飛機(jī)的干擾。在有限的可用功率下,就需要一個(gè)可靠和高效的功率控制策略。博弈(非合作博弈
    發(fā)表于 01-29 14:09 ?21次下載

    基于FlipIt模型的非對(duì)稱信息條件下攻防博弈模型

    雙方對(duì)目標(biāo)資源的交替控制;然后,考慮到攻防雙方博弈中觀察到的反饋信息的不對(duì)稱性以及防御效果的不徹底性,給出了防御者采取更新策略時(shí)攻防雙方的收益模型及最優(yōu)策略的條件,同時(shí)給出并分別證
    發(fā)表于 11-28 15:06 ?0次下載
    基于FlipIt模型的<b class='flag-5'>非對(duì)稱</b>信息條件下攻防<b class='flag-5'>博弈</b>模型

    北卡羅萊州立大學(xué)開發(fā)了一種直接印刷柔性電子產(chǎn)品金屬電路的新方法

    美國北卡羅萊州立大學(xué)的一個(gè)研究小組宣布,他們開發(fā)了一種直接印刷柔性電子產(chǎn)品金屬電路的新方法
    的頭像 發(fā)表于 01-23 11:31 ?4751次閱讀

    AD采集的新方法資料分享

    AD采集的新方法
    發(fā)表于 03-23 09:44 ?10次下載

    Daskalakis憑借自己博弈論、均衡和機(jī)器學(xué)習(xí)領(lǐng)域的貢獻(xiàn)獲得“奈望林獎(jiǎng)”

    一個(gè)機(jī)緣巧合,Daskalakis聽了理論計(jì)算機(jī)科學(xué)家Christos Papadimitriou的一次演講,這給他留下了非常深刻的印象。除了其他內(nèi)容,演講中重點(diǎn)提及的還有均衡,這是博弈
    的頭像 發(fā)表于 08-05 08:52 ?6031次閱讀

    華裔女科學(xué)家找到了精確測(cè)量重力的新方法

    科學(xué)家們找到新方法來通過激光、原子來測(cè)量重力。這種辦法精度極高,甚至能測(cè)量你的微小體重對(duì)重力的影響。
    的頭像 發(fā)表于 05-19 15:08 ?2867次閱讀

    基于矩陣半張量積的時(shí)滯演化擁塞博弈鎮(zhèn)定方法

    擁塞博弈的動(dòng)態(tài)行為,證明該博弈的不動(dòng)點(diǎn)即為均衡點(diǎn),給出其開環(huán)控制和狀態(tài)反饋控制下全局鎮(zhèn)定到
    發(fā)表于 03-30 11:47 ?23次下載
    基于矩陣半張量積的時(shí)滯演化擁塞<b class='flag-5'>博弈</b>鎮(zhèn)定<b class='flag-5'>方法</b>

    VLSI系統(tǒng)設(shè)計(jì)的最新方法

    電子發(fā)燒友網(wǎng)站提供《VLSI系統(tǒng)設(shè)計(jì)的最新方法.pdf》資料免費(fèi)下載
    發(fā)表于 11-20 11:10 ?0次下載
    VLSI系統(tǒng)設(shè)計(jì)的最<b class='flag-5'>新方法</b>
    主站蜘蛛池模板: 久久福利青草精品资源站免费 | 日本资源在线 | 欧美图片小说视频 | 免费观看一级特黄三大片视频 | 婷婷综合在线观看丁香 | 天天操天天干天天舔 | 一级大片免费观看 | 狠狠干狠狠爱 | 男人搡女人视频免费看 | 色色就色色 | 日本三级成人午夜视频网 | bt天堂网www连接 | 色wwww| 国内黄色一级片 | 美女扒开尿口给男人爽免费视频 | 加勒比精品久久一区二区三区 | 美女黄网站人色视频免费国产 | 美女被曹 | 免费看一毛一级毛片视频 | 91福利网winktv | 9色在线| 欧美精品人爱a欧美精品 | 在线播放免费 | 欧美黑人粗暴另类多交 | 91网站网站网站在线 | 久热九九 | 四虎永久免费网站入口2020 | 欧美18xxoovideos| 欧美透逼视频 | 亚洲成a人片在线网站 | 天天干2018 | 福利盒子手机看片 | 68日本xxxxxxxxx| 老色批视频 | 糖心vlog麻豆精东影业传媒 | 亚洲精品欧洲久久婷婷99 | 欧美色图 亚洲 | 久久精品亚洲青青草原 | 速度与激情在线 | 天天综合色一区二区三区 | 亚洲精品视频区 |