多任務(wù)學(xué)習(xí)——即允許單個(gè)智能體學(xué)習(xí)如何完成多種不同的的任務(wù)——一直是人工智能研究的長(zhǎng)期目標(biāo)。近年來,這一領(lǐng)域出現(xiàn)了不少優(yōu)秀進(jìn)展,比如DQN只用同一種算法就能玩包含《打磚塊》和《乓》在內(nèi)的多種游戲。但事實(shí)上,這些算法的本質(zhì)還是對(duì)于每個(gè)任務(wù),訓(xùn)練單獨(dú)的智能體。
隨著人工智能研究開始向更復(fù)雜的現(xiàn)實(shí)任務(wù)靠攏,構(gòu)建一個(gè)“多才多藝”的智能體——而不是多個(gè)“專家級(jí)”智能體——對(duì)學(xué)習(xí)執(zhí)行多個(gè)任務(wù)將是至關(guān)重要的。很可惜,到目前為止,這已經(jīng)被證明仍是一項(xiàng)重大挑戰(zhàn)。
其中的一個(gè)原因是在不同任務(wù)中,強(qiáng)化學(xué)習(xí)智能體用來判斷自己成功與否的獎(jiǎng)勵(lì)標(biāo)準(zhǔn)存在差異,這導(dǎo)致它們會(huì)陷入“唯獎(jiǎng)勵(lì)論”,專注于執(zhí)行所有獎(jiǎng)勵(lì)更高的任務(wù)。舉個(gè)例子,在雅達(dá)利游戲《乓》中,智能體每執(zhí)行一個(gè)“動(dòng)作”就可能獲得如下獎(jiǎng)勵(lì):-1、0或+1。相比之下,如果是同為街機(jī)游戲的《吃豆人小姐》,智能體可能走一步就能獲得成百上千個(gè)積分。
即便我們把單個(gè)獎(jiǎng)勵(lì)設(shè)置成基本一致,隨著智能體被訓(xùn)練地越來越好,由于獎(jiǎng)勵(lì)頻率不同的存在,不同游戲間的獎(jiǎng)勵(lì)差異還是會(huì)變得越來越明顯。
為了解決這些問題,DeepMind開發(fā)了PopArt,它可以調(diào)整每個(gè)游戲中的積分等級(jí),因此無論不同游戲間的獎(jiǎng)勵(lì)差異有多大,智能體都會(huì)對(duì)它們“一視同仁”,判斷它們帶給自己的獎(jiǎng)勵(lì)相同。在他們最新的論文Multi-task Deep Reinforcement Learning with PopArt中,DeepMind把PopArt歸一化用在當(dāng)前最先進(jìn)的強(qiáng)化學(xué)習(xí)智能體上,訓(xùn)練了一個(gè)只用一套權(quán)重的單一智能體。在一整套57種不同的Atari游戲上,這個(gè)智能體的表現(xiàn)可以達(dá)到人類中等水平以上。
從廣義上講,深度學(xué)習(xí)極度依賴神經(jīng)網(wǎng)絡(luò)權(quán)重的更新,使輸出更接近需要的目標(biāo)輸出。這一點(diǎn)放在深度強(qiáng)化學(xué)習(xí)上也一樣。
PopArt的工作機(jī)制基于估計(jì)這些目標(biāo)的平均值和分布(例如游戲中的得分),在利用這些統(tǒng)計(jì)信息更新網(wǎng)絡(luò)權(quán)重前,它會(huì)先對(duì)它們做歸一化,目的是形成對(duì)獎(jiǎng)勵(lì)的規(guī)模和頻率更穩(wěn)健的學(xué)習(xí)經(jīng)驗(yàn)。之后,為了獲得更準(zhǔn)確的估計(jì)——如預(yù)期的得分——它再繼續(xù)把網(wǎng)絡(luò)的輸出重新轉(zhuǎn)成原始范圍。
如果單純地這么做,那么每次更新統(tǒng)計(jì)數(shù)據(jù)都會(huì)改變非歸一化的輸出,包括非常理想的輸出。這不是我們想要的。為了避免這一點(diǎn),DeepMind提出的解決方案是,每次更新統(tǒng)計(jì)數(shù)據(jù)時(shí),網(wǎng)絡(luò)就會(huì)進(jìn)行一次反向更新,這意味著我們既能實(shí)現(xiàn)網(wǎng)絡(luò)的大規(guī)模更新,又能保持先前學(xué)習(xí)的輸出不變。
出于這種原因,他們把這種方法命名為PopArt:Preserving Outputs Precisely while Adaptively Rescaling Targets(在自適應(yīng)重新縮放目標(biāo)的同時(shí)精確保留原有輸出)。
用PopArt代替獎(jiǎng)勵(lì)剪枝
按照以往的做法,如果研究人員要用強(qiáng)化學(xué)習(xí)算法對(duì)獎(jiǎng)勵(lì)進(jìn)行剪枝,以此克服獎(jiǎng)勵(lì)范圍各不相同的問題,他們首先會(huì)把大的獎(jiǎng)勵(lì)設(shè)為+1,小的獎(jiǎng)勵(lì)為-1,然后對(duì)預(yù)期獎(jiǎng)勵(lì)做歸一化處理。雖然這種做法易于學(xué)習(xí),但它也改變了智能體的目標(biāo)。
例如,《吃豆人小姐》的目標(biāo)是吃豆子,每個(gè)豆子10分,吃鬼200-1600分。在訓(xùn)練強(qiáng)化學(xué)習(xí)智能體時(shí),通過剪枝,智能體會(huì)認(rèn)為自己吃豆子或吃鬼沒有任何區(qū)別,再加上吃豆子更容易,研究人員會(huì)很容易訓(xùn)練出一個(gè)只會(huì)吃豆子、從不追逐鬼的智能體。
而如下面這個(gè)視頻所示,用PopArt取代獎(jiǎng)勵(lì)剪枝后,這個(gè)智能體更“聰明”了,它會(huì)把追鬼納入自己的吃豆路徑,得分也更高:
用PopArt進(jìn)行多任務(wù)深度強(qiáng)化學(xué)習(xí)
今年2月,DeepMind曾發(fā)布一個(gè)多任務(wù)集合DMLab-30,為了解決其中的問題,他們還開發(fā)了一個(gè)高度可擴(kuò)展的、基于分布式架構(gòu)的智能體IMPALA。這是目前世界上最先進(jìn)的強(qiáng)化學(xué)習(xí)智能體之一,也是DeepMind最常用的深度強(qiáng)化學(xué)習(xí)智能體之一。
在實(shí)驗(yàn)中,他們把PopArt用于IMPALA,并和基線智能體做對(duì)比。結(jié)果如下圖所示,PopArt大幅提高了智能體的性能。實(shí)驗(yàn)還對(duì)比了獎(jiǎng)勵(lì)剪枝和未剪枝的情況,可以發(fā)現(xiàn),使用PopArt的智能體在游戲中的得分中位數(shù)高于人類玩家的中位數(shù),這比基線表現(xiàn)好很多。而其中未剪枝的基線得分幾乎為0,因?yàn)樗鼰o法從游戲中學(xué)習(xí)有意義的表征,所以也無法處理游戲獎(jiǎng)勵(lì)范圍的巨大變化。
57個(gè)Atari上的表現(xiàn)中位數(shù),每一行對(duì)應(yīng)單個(gè)智能體的中值性能;實(shí)現(xiàn)為經(jīng)過剪枝,虛線未剪枝
這也是DeepMind第一次在多任務(wù)環(huán)境中看到智能體有超人表現(xiàn),這表明PopArt確實(shí)在獎(jiǎng)勵(lì)不平衡上有一定的協(xié)調(diào)作用。而當(dāng)未來我們把AI系統(tǒng)用于更復(fù)雜的多模態(tài)環(huán)境時(shí),像這種自適應(yīng)規(guī)范化方法會(huì)變得越來越重要,因?yàn)橹悄荏w必須要學(xué)會(huì)在面對(duì)多個(gè)不同目標(biāo)時(shí),利用它們各自的獎(jiǎng)勵(lì)做總體權(quán)衡。
-
人工智能
+關(guān)注
關(guān)注
1796文章
47786瀏覽量
240543 -
智能體
+關(guān)注
關(guān)注
1文章
172瀏覽量
10623 -
強(qiáng)化學(xué)習(xí)
+關(guān)注
關(guān)注
4文章
268瀏覽量
11307
原文標(biāo)題:DeepMind:用PopArt進(jìn)行多任務(wù)深度強(qiáng)化學(xué)習(xí)
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
什么是深度強(qiáng)化學(xué)習(xí)?深度強(qiáng)化學(xué)習(xí)算法應(yīng)用分析
![什么是<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法應(yīng)用分析](https://file1.elecfans.com/web2/M00/8B/D4/wKgZomSfkMCASDP8AAA3UD8vgH0915.png)
深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)
深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)
強(qiáng)化學(xué)習(xí)在RoboCup帶球任務(wù)中的應(yīng)用劉飛
將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL
薩頓科普了強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí),并談到了這項(xiàng)技術(shù)的潛力和發(fā)展方向
深度強(qiáng)化學(xué)習(xí)的筆記資料免費(fèi)下載
![<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>的筆記資料免費(fèi)下載](https://file.elecfans.com/web1/M00/B5/C2/pIYBAF5nMXqAVq1_AAGBv831a3o592.png)
深度強(qiáng)化學(xué)習(xí)到底是什么?它的工作原理是怎么樣的
強(qiáng)化學(xué)習(xí)在智能對(duì)話上的應(yīng)用介紹
基于深度強(qiáng)化學(xué)習(xí)仿真集成的壓邊力控制模型
基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制律設(shè)計(jì)方法
《自動(dòng)化學(xué)報(bào)》—多Agent深度強(qiáng)化學(xué)習(xí)綜述
![《自動(dòng)<b class='flag-5'>化學(xué)</b>報(bào)》—多Agent<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>綜述](https://file.elecfans.com/web1/M00/F1/DE/o4YBAGC24DOAHECBAAAARmu_22A208.png)
ESP32上的深度強(qiáng)化學(xué)習(xí)
![ESP32上的<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
NeurIPS 2023 | 擴(kuò)散模型解決多任務(wù)強(qiáng)化學(xué)習(xí)問題
![NeurIPS 2023 | 擴(kuò)散模型解決<b class='flag-5'>多任務(wù)</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>問題](https://file1.elecfans.com//web2/M00/A8/68/wKgaomUs_uiAPwcVAADyizd-MH8593.png)
評(píng)論