在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用PopArt進(jìn)行多任務(wù)深度強(qiáng)化學(xué)習(xí)

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-09-16 09:32 ? 次閱讀

多任務(wù)學(xué)習(xí)——即允許單個(gè)智能體學(xué)習(xí)如何完成多種不同的的任務(wù)——一直是人工智能研究的長(zhǎng)期目標(biāo)。近年來,這一領(lǐng)域出現(xiàn)了不少優(yōu)秀進(jìn)展,比如DQN只用同一種算法就能玩包含《打磚塊》和《乓》在內(nèi)的多種游戲。但事實(shí)上,這些算法的本質(zhì)還是對(duì)于每個(gè)任務(wù),訓(xùn)練單獨(dú)的智能體。

隨著人工智能研究開始向更復(fù)雜的現(xiàn)實(shí)任務(wù)靠攏,構(gòu)建一個(gè)“多才多藝”的智能體——而不是多個(gè)“專家級(jí)”智能體——對(duì)學(xué)習(xí)執(zhí)行多個(gè)任務(wù)將是至關(guān)重要的。很可惜,到目前為止,這已經(jīng)被證明仍是一項(xiàng)重大挑戰(zhàn)。

其中的一個(gè)原因是在不同任務(wù)中,強(qiáng)化學(xué)習(xí)智能體用來判斷自己成功與否的獎(jiǎng)勵(lì)標(biāo)準(zhǔn)存在差異,這導(dǎo)致它們會(huì)陷入“唯獎(jiǎng)勵(lì)論”,專注于執(zhí)行所有獎(jiǎng)勵(lì)更高的任務(wù)。舉個(gè)例子,在雅達(dá)利游戲《乓》中,智能體每執(zhí)行一個(gè)“動(dòng)作”就可能獲得如下獎(jiǎng)勵(lì):-1、0或+1。相比之下,如果是同為街機(jī)游戲的《吃豆人小姐》,智能體可能走一步就能獲得成百上千個(gè)積分。

即便我們把單個(gè)獎(jiǎng)勵(lì)設(shè)置成基本一致,隨著智能體被訓(xùn)練地越來越好,由于獎(jiǎng)勵(lì)頻率不同的存在,不同游戲間的獎(jiǎng)勵(lì)差異還是會(huì)變得越來越明顯。

為了解決這些問題,DeepMind開發(fā)了PopArt,它可以調(diào)整每個(gè)游戲中的積分等級(jí),因此無論不同游戲間的獎(jiǎng)勵(lì)差異有多大,智能體都會(huì)對(duì)它們“一視同仁”,判斷它們帶給自己的獎(jiǎng)勵(lì)相同。在他們最新的論文Multi-task Deep Reinforcement Learning with PopArt中,DeepMind把PopArt歸一化用在當(dāng)前最先進(jìn)的強(qiáng)化學(xué)習(xí)智能體上,訓(xùn)練了一個(gè)只用一套權(quán)重的單一智能體。在一整套57種不同的Atari游戲上,這個(gè)智能體的表現(xiàn)可以達(dá)到人類中等水平以上。

從廣義上講,深度學(xué)習(xí)極度依賴神經(jīng)網(wǎng)絡(luò)權(quán)重的更新,使輸出更接近需要的目標(biāo)輸出。這一點(diǎn)放在深度強(qiáng)化學(xué)習(xí)上也一樣。

PopArt的工作機(jī)制基于估計(jì)這些目標(biāo)的平均值和分布(例如游戲中的得分),在利用這些統(tǒng)計(jì)信息更新網(wǎng)絡(luò)權(quán)重前,它會(huì)先對(duì)它們做歸一化,目的是形成對(duì)獎(jiǎng)勵(lì)的規(guī)模和頻率更穩(wěn)健的學(xué)習(xí)經(jīng)驗(yàn)。之后,為了獲得更準(zhǔn)確的估計(jì)——如預(yù)期的得分——它再繼續(xù)把網(wǎng)絡(luò)的輸出重新轉(zhuǎn)成原始范圍。

如果單純地這么做,那么每次更新統(tǒng)計(jì)數(shù)據(jù)都會(huì)改變非歸一化的輸出,包括非常理想的輸出。這不是我們想要的。為了避免這一點(diǎn),DeepMind提出的解決方案是,每次更新統(tǒng)計(jì)數(shù)據(jù)時(shí),網(wǎng)絡(luò)就會(huì)進(jìn)行一次反向更新,這意味著我們既能實(shí)現(xiàn)網(wǎng)絡(luò)的大規(guī)模更新,又能保持先前學(xué)習(xí)的輸出不變。

出于這種原因,他們把這種方法命名為PopArt:Preserving Outputs Precisely while Adaptively Rescaling Targets(在自適應(yīng)重新縮放目標(biāo)的同時(shí)精確保留原有輸出)。

用PopArt代替獎(jiǎng)勵(lì)剪枝

按照以往的做法,如果研究人員要用強(qiáng)化學(xué)習(xí)算法對(duì)獎(jiǎng)勵(lì)進(jìn)行剪枝,以此克服獎(jiǎng)勵(lì)范圍各不相同的問題,他們首先會(huì)把大的獎(jiǎng)勵(lì)設(shè)為+1,小的獎(jiǎng)勵(lì)為-1,然后對(duì)預(yù)期獎(jiǎng)勵(lì)做歸一化處理。雖然這種做法易于學(xué)習(xí),但它也改變了智能體的目標(biāo)。

例如,《吃豆人小姐》的目標(biāo)是吃豆子,每個(gè)豆子10分,吃鬼200-1600分。在訓(xùn)練強(qiáng)化學(xué)習(xí)智能體時(shí),通過剪枝,智能體會(huì)認(rèn)為自己吃豆子或吃鬼沒有任何區(qū)別,再加上吃豆子更容易,研究人員會(huì)很容易訓(xùn)練出一個(gè)只會(huì)吃豆子、從不追逐鬼的智能體。

而如下面這個(gè)視頻所示,用PopArt取代獎(jiǎng)勵(lì)剪枝后,這個(gè)智能體更“聰明”了,它會(huì)把追鬼納入自己的吃豆路徑,得分也更高:

用PopArt進(jìn)行多任務(wù)深度強(qiáng)化學(xué)習(xí)

今年2月,DeepMind曾發(fā)布一個(gè)多任務(wù)集合DMLab-30,為了解決其中的問題,他們還開發(fā)了一個(gè)高度可擴(kuò)展的、基于分布式架構(gòu)的智能體IMPALA。這是目前世界上最先進(jìn)的強(qiáng)化學(xué)習(xí)智能體之一,也是DeepMind最常用的深度強(qiáng)化學(xué)習(xí)智能體之一。

在實(shí)驗(yàn)中,他們把PopArt用于IMPALA,并和基線智能體做對(duì)比。結(jié)果如下圖所示,PopArt大幅提高了智能體的性能。實(shí)驗(yàn)還對(duì)比了獎(jiǎng)勵(lì)剪枝和未剪枝的情況,可以發(fā)現(xiàn),使用PopArt的智能體在游戲中的得分中位數(shù)高于人類玩家的中位數(shù),這比基線表現(xiàn)好很多。而其中未剪枝的基線得分幾乎為0,因?yàn)樗鼰o法從游戲中學(xué)習(xí)有意義的表征,所以也無法處理游戲獎(jiǎng)勵(lì)范圍的巨大變化。

57個(gè)Atari上的表現(xiàn)中位數(shù),每一行對(duì)應(yīng)單個(gè)智能體的中值性能;實(shí)現(xiàn)為經(jīng)過剪枝,虛線未剪枝

這也是DeepMind第一次在多任務(wù)環(huán)境中看到智能體有超人表現(xiàn),這表明PopArt確實(shí)在獎(jiǎng)勵(lì)不平衡上有一定的協(xié)調(diào)作用。而當(dāng)未來我們把AI系統(tǒng)用于更復(fù)雜的多模態(tài)環(huán)境時(shí),像這種自適應(yīng)規(guī)范化方法會(huì)變得越來越重要,因?yàn)橹悄荏w必須要學(xué)會(huì)在面對(duì)多個(gè)不同目標(biāo)時(shí),利用它們各自的獎(jiǎng)勵(lì)做總體權(quán)衡。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1796

    文章

    47786

    瀏覽量

    240543
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    172

    瀏覽量

    10623
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    268

    瀏覽量

    11307

原文標(biāo)題:DeepMind:用PopArt進(jìn)行多任務(wù)深度強(qiáng)化學(xué)習(xí)

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    使用Isaac Gym 來強(qiáng)化學(xué)習(xí)mycobot 抓取任務(wù)

    使用Isaac Gym來強(qiáng)化學(xué)習(xí)mycobot抓取任務(wù)
    的頭像 發(fā)表于 04-11 14:57 ?7415次閱讀
    使用Isaac Gym 來<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>mycobot 抓取<b class='flag-5'>任務(wù)</b>

    什么是深度強(qiáng)化學(xué)習(xí)?深度強(qiáng)化學(xué)習(xí)算法應(yīng)用分析

    什么是深度強(qiáng)化學(xué)習(xí)? 眾所周知,人類擅長(zhǎng)解決各種挑戰(zhàn)性的問題,從低級(jí)的運(yùn)動(dòng)控制(如:步行、跑步、打網(wǎng)球)到高級(jí)的認(rèn)知任務(wù)
    發(fā)表于 07-01 10:29 ?1538次閱讀
    什么是<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法應(yīng)用分析

    深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)

    測(cè)試)三、主講內(nèi)容1:課程一、強(qiáng)化學(xué)習(xí)簡(jiǎn)介課程二、強(qiáng)化學(xué)習(xí)基礎(chǔ)課程三、深度強(qiáng)化學(xué)習(xí)基礎(chǔ)課程四、多智能體深度
    發(fā)表于 01-09 17:01

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    測(cè)試)三、主講內(nèi)容1:課程一、強(qiáng)化學(xué)習(xí)簡(jiǎn)介課程二、強(qiáng)化學(xué)習(xí)基礎(chǔ)課程三、深度強(qiáng)化學(xué)習(xí)基礎(chǔ)課程四、多智能體深度
    發(fā)表于 01-10 13:42

    強(qiáng)化學(xué)習(xí)在RoboCup帶球任務(wù)中的應(yīng)用劉飛

    強(qiáng)化學(xué)習(xí)在RoboCup帶球任務(wù)中的應(yīng)用_劉飛
    發(fā)表于 03-14 08:00 ?0次下載

    深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

    深度強(qiáng)化學(xué)習(xí)DRL自提出以來, 已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo,將
    發(fā)表于 06-29 18:36 ?2.8w次閱讀

    薩頓科普了強(qiáng)化學(xué)習(xí)深度強(qiáng)化學(xué)習(xí),并談到了這項(xiàng)技術(shù)的潛力和發(fā)展方向

    薩頓在專訪中(再次)科普了強(qiáng)化學(xué)習(xí)深度強(qiáng)化學(xué)習(xí),并談到了這項(xiàng)技術(shù)的潛力,以及接下來的發(fā)展方向:預(yù)測(cè)學(xué)習(xí)
    的頭像 發(fā)表于 12-27 09:07 ?1.1w次閱讀

    深度強(qiáng)化學(xué)習(xí)的筆記資料免費(fèi)下載

    本文檔的主要內(nèi)容詳細(xì)介紹的是深度強(qiáng)化學(xué)習(xí)的筆記資料免費(fèi)下載。
    發(fā)表于 03-10 08:00 ?0次下載
    <b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>的筆記資料免費(fèi)下載

    深度強(qiáng)化學(xué)習(xí)到底是什么?它的工作原理是怎么樣的

    深度學(xué)習(xí)DL是機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。深度
    的頭像 發(fā)表于 06-13 11:39 ?6148次閱讀

    強(qiáng)化學(xué)習(xí)在智能對(duì)話上的應(yīng)用介紹

    本文主要介紹深度強(qiáng)化學(xué)習(xí)任務(wù)型對(duì)話上的應(yīng)用,兩者的結(jié)合點(diǎn)主要是將深度強(qiáng)化學(xué)習(xí)應(yīng)用于任務(wù)型對(duì)話的
    的頭像 發(fā)表于 12-10 19:02 ?1096次閱讀

    基于深度強(qiáng)化學(xué)習(xí)仿真集成的壓邊力控制模型

    壓邊為改善板料拉深制造的成品質(zhì)量,釆深度強(qiáng)化學(xué)習(xí)的方法進(jìn)行拉深過程旳壓邊力優(yōu)化控制。提岀一種基于深度強(qiáng)
    發(fā)表于 05-27 10:32 ?0次下載

    基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制律設(shè)計(jì)方法

    基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)控制律設(shè)計(jì)方法
    發(fā)表于 06-23 14:59 ?46次下載

    《自動(dòng)化學(xué)報(bào)》—多Agent深度強(qiáng)化學(xué)習(xí)綜述

    多Agent 深度強(qiáng)化學(xué)習(xí)綜述 來源:《自動(dòng)化學(xué)報(bào)》,作者梁星星等 摘 要?近年來,深度強(qiáng)化學(xué)習(xí)(Deep reinforcement le
    發(fā)表于 01-18 10:08 ?1674次閱讀
    《自動(dòng)<b class='flag-5'>化學(xué)</b>報(bào)》—多Agent<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>綜述

    ESP32上的深度強(qiáng)化學(xué)習(xí)

    電子發(fā)燒友網(wǎng)站提供《ESP32上的深度強(qiáng)化學(xué)習(xí).zip》資料免費(fèi)下載
    發(fā)表于 12-27 10:31 ?0次下載
    ESP32上的<b class='flag-5'>深度</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>

    NeurIPS 2023 | 擴(kuò)散模型解決多任務(wù)強(qiáng)化學(xué)習(xí)問題

    model 能否解決多任務(wù)強(qiáng)化學(xué)習(xí)問題呢?我們最近提出的一篇新工作——“Diffusion Model is an Effective Planner and Data
    的頭像 發(fā)表于 10-02 10:45 ?919次閱讀
    NeurIPS 2023 | 擴(kuò)散模型解決<b class='flag-5'>多任務(wù)</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>問題
    主站蜘蛛池模板: 欧美一级在线观看播放 | 黄色免费在线网址 | 一级片在线免费播放 | 亚洲手机看片 | 色男人在线 | 992tv国产精品福利在线 | 456亚洲人成影院在线观 | 日本三级免费看 | 国产精品1区2区3区在线播放 | 国产在视频线精品视频2021 | 777777777妇女亚洲 | 欧美性久久久久 | 婷婷综合五月中文字幕欧美 | 综合网在线 | 久久综合香蕉久久久久久久 | 久久大尺度 | 看久久| 亚洲你xx我xx网站 | 国产手机在线国内精品 | 欧美日韩看片 | 午夜黄网站| 日本国产黄色片 | 欧美视频亚洲色图 | 亚洲第一视频 | 欧美人与牲动交xxxxbbbb | 午夜久久久久久亚洲国产精品 | 女bbbbxxxx毛片视频0 | 中文字幕三级 | 国产精品资源手机在线播放 | 高清在线免费观看 | 日韩一级一欧美一级国产 | 欧美极品在线观看 | 亚洲一区二区黄色 | 手机看片日本 | 一级黄a | 天天爽夜夜爽精品视频一 | 亚洲美女爱爱 | 激情丁香六月 | 亚洲伊人色一综合网 | 又粗又长又爽又长黄免费视频 | 色吧首页dvd |