隨著人工智能系統(tǒng)在現(xiàn)實(shí)世界中扮演越來越重要的角色,理解不同的系統(tǒng)如何相互作用至關(guān)重要。
剛剛,DeepMind發(fā)表了一篇名為Symmetric Decomposition of Asymmetric Games的論文。在這篇論文中,DeepMind研究人員采用了博弈論的分支試圖這個(gè)問題。
研究人員重點(diǎn)觀察了在德州撲克,棋盤游戲蘇格蘭特警等非對(duì)稱博弈中,兩個(gè)智能體會(huì)有怎樣的行為和表現(xiàn)。
用這種新方法,智能體能簡(jiǎn)單快速地在復(fù)雜的非對(duì)稱博弈里找到納什均衡。
博弈與納什均衡
博弈論屬于數(shù)學(xué)的一個(gè)分支,用于分析競(jìng)爭(zhēng)環(huán)境下決策者的策略。
這套理論適用于人類,動(dòng)物,以及超過一個(gè)AI時(shí)的多AI環(huán)境。比如說家里多個(gè)機(jī)器人同時(shí)打掃房間。
非對(duì)稱信息博弈模擬了真實(shí)世界的場(chǎng)景,就像拍賣時(shí)買家和賣家的心態(tài)和動(dòng)機(jī)不同。我們得到的結(jié)果給了我們獨(dú)道的見解,以及極其簡(jiǎn)潔的方式分析他們。
非對(duì)稱博弈的特點(diǎn)是每方玩家都有不同的策略、目標(biāo)和獎(jiǎng)勵(lì)。比如說博弈論研究里最常見的協(xié)調(diào)博弈,性別之戰(zhàn)。
一般來說,多AI系統(tǒng)的進(jìn)化動(dòng)態(tài)過程是用簡(jiǎn)單的對(duì)稱博弈來分析,比如說經(jīng)典的囚徒困境,兩方玩家都可以采取同樣的行動(dòng)。即使這些博弈能夠?yàn)槎郃I系統(tǒng)提供有效的洞見,告訴我們?nèi)绾尾僮魉型婕也拍塬@得最優(yōu)結(jié)果(這就是納什均衡),但他們并不能模擬出所有的情況。
DeepMind的新的方法,能簡(jiǎn)單快速地在復(fù)雜的非對(duì)稱博弈里找到納什均衡。
雖然目前這套理論的重點(diǎn)還在如何應(yīng)用在多個(gè)AI系統(tǒng)的互動(dòng)中,但研究人員相信這個(gè)結(jié)論也可以用于經(jīng)濟(jì)、進(jìn)化生物學(xué)、經(jīng)驗(yàn)博弈論中。
歌劇還是電影?
舉個(gè)例子吧。
兩名玩家需要決定晚上是去看歌劇還是電影,不巧的是,其中一名偏好歌劇而另一名偏好電影。這是場(chǎng)不對(duì)稱的游戲,雖然兩名玩家可以任意選擇,但是根據(jù)玩家的喜好,每個(gè)玩家得到獎(jiǎng)勵(lì)是不同的。
但是,為了維持他們的友誼,或者我們稱為一種平衡,雙方需要選擇相同的活動(dòng),因此單獨(dú)行動(dòng)的回報(bào)為零。
這個(gè)游戲有三個(gè)平衡:(i)雙方都去看歌劇,(ii)雙方去看電影,(iii)還有一個(gè)混合選項(xiàng),每個(gè)玩家在五分之三的時(shí)間里選擇他們喜歡的選項(xiàng)。
這個(gè)“不穩(wěn)定的”的最后一個(gè)選項(xiàng),就是用了將不對(duì)稱游戲簡(jiǎn)化或分解成它的對(duì)稱對(duì)等體的方法。
我們可以將這種游戲的本質(zhì)想象成,每個(gè)玩家的獎(jiǎng)勵(lì)分?jǐn)?shù)表是一個(gè)獨(dú)立對(duì)稱的雙玩家游戲,它的平衡點(diǎn)與原始的不對(duì)稱游戲一致。
在下面這張圖中,納什均衡是通過兩個(gè)對(duì)等點(diǎn)得到的,幫助我們快速確定不對(duì)稱博弈中的最優(yōu)策略(a)。反過來說,利用不對(duì)稱博弈來確定對(duì)稱對(duì)等點(diǎn)的均衡。
△紅點(diǎn)代表納什均衡。對(duì)于不對(duì)稱的游戲(a),納什均衡可以很容易地從(b)和(c)兩張對(duì)稱圖中得到。上述圖中,x、y軸分別為玩家1、2選擇歌劇的概率
好消息是,這種方法也適用于其他游戲,比如Leduc撲克等。這些方法應(yīng)用了一個(gè)簡(jiǎn)單的數(shù)學(xué)原理,從而快速直接分析不對(duì)稱游戲。我們希望它也能幫助我們理解各種動(dòng)態(tài)系統(tǒng),包括多代理環(huán)境。
-
博弈論
+關(guān)注
關(guān)注
0文章
8瀏覽量
7347 -
DeepMind
+關(guān)注
關(guān)注
0文章
131瀏覽量
11414 -
納什均衡
+關(guān)注
關(guān)注
0文章
2瀏覽量
1197
原文標(biāo)題:AI博弈論:DeepMind讓智能體在非對(duì)稱博弈中找納什均衡
文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
matlab 如何計(jì)算納什均衡
蘋果獲得Macbook Pro非對(duì)稱散熱風(fēng)扇設(shè)計(jì)專利
運(yùn)用于matlab中的矩陣求逆的新方法有哪些?。ú皇呛瘮?shù)inv)
轉(zhuǎn)帖:完全用Proteus8.0編譯測(cè)試ARM Cortex的最新方法
基于納什博弈論的功率控制策略及其牛頓迭代算法
基于FlipIt模型的非對(duì)稱信息條件下攻防博弈模型

北卡羅萊納州立大學(xué)開發(fā)了一種直接印刷柔性電子產(chǎn)品用金屬電路的新方法
Daskalakis憑借自己在博弈論、納什均衡和機(jī)器學(xué)習(xí)領(lǐng)域的貢獻(xiàn)獲得“奈望林納獎(jiǎng)”
華裔女科學(xué)家找到了精確測(cè)量重力的新方法
基于矩陣半張量積的時(shí)滯演化擁塞博弈鎮(zhèn)定方法

VLSI系統(tǒng)設(shè)計(jì)的最新方法

評(píng)論