在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

全新的強(qiáng)化學(xué)習(xí)算法:柔性致動(dòng)/評價(jià)(soft actor-critic,SAC)

nlfO_thejiangme ? 來源:lq ? 2018-12-20 10:31 ? 次閱讀

伯克利和谷歌大腦的研究人員近日發(fā)表了全新的強(qiáng)化學(xué)習(xí)算法:柔性致動(dòng)/評價(jià)(soft actor-critic,SAC)。作者表示,作為目前高效的model-free算法,十分適用于真實(shí)世界中的機(jī)器人任務(wù)學(xué)習(xí)。在這篇文章中,將詳細(xì)比較SAC與前沿強(qiáng)化學(xué)習(xí)算法的性能,并利用多個(gè)實(shí)際任務(wù)作為例子來展示最新算法的能力。這一算法還包含完整詳細(xì)的源碼實(shí)現(xiàn)供研究者學(xué)習(xí)和使用。

適用于真實(shí)機(jī)器人的深度強(qiáng)化學(xué)習(xí)

真實(shí)世界中理想的強(qiáng)化學(xué)習(xí)算法應(yīng)該具有什么樣的特性呢?與虛擬和實(shí)驗(yàn)室環(huán)境相比,真實(shí)情況將為算法帶來一系列挑戰(zhàn)。包括通信和數(shù)據(jù)流連續(xù)中斷、低延時(shí)的推理、為避免設(shè)備機(jī)械損傷需要盡可能平滑連續(xù)的運(yùn)動(dòng)等,這些都為算法本身及其實(shí)現(xiàn)帶來了更多的要求。研究人員通常希望應(yīng)用在真實(shí)世界中的算法具有以下優(yōu)點(diǎn):

·樣本效率。在真實(shí)世界中學(xué)習(xí)技能是耗時(shí)的任務(wù),對于每一個(gè)新任務(wù)的學(xué)習(xí)都需要多次試錯(cuò),學(xué)習(xí)一個(gè)新技能所需的總時(shí)間會(huì)十分可觀,所以良好的樣本復(fù)雜度是一個(gè)優(yōu)秀算法的先決條件。

·對超參數(shù)不敏感。真實(shí)世界中研究人員希望避免參數(shù)調(diào)整,而最大化交叉熵的強(qiáng)化學(xué)習(xí)提供了一個(gè)魯棒的學(xué)習(xí)框架來最小化超參數(shù)調(diào)節(jié)的需求。

·Off-policy學(xué)習(xí)。解耦策略(off-policy)學(xué)習(xí)意味著可以使用其他任務(wù)場景收集的數(shù)據(jù)來學(xué)習(xí),例如在準(zhǔn)備新任務(wù)時(shí)只需要調(diào)整參數(shù)和獎(jiǎng)勵(lì)函數(shù),而解耦策略則允許復(fù)用已經(jīng)收集好的數(shù)據(jù)來訓(xùn)練算法。SAC是一個(gè)解耦策略(off-policy)和自由模型(model-free)深度強(qiáng)化學(xué)習(xí)算法。它不僅涵蓋了上述優(yōu)點(diǎn),同時(shí)其樣本效率足夠在幾小時(shí)內(nèi)解決真實(shí)世界的機(jī)器人學(xué)習(xí)問題。此外其超參數(shù)十分魯棒,只需要單一的超參數(shù)集就可以在不同的模擬環(huán)境中獲得良好的表現(xiàn)。更為重要的是這一算法的實(shí)現(xiàn)還包含了以下特點(diǎn),為真實(shí)世界的機(jī)器人學(xué)習(xí)提供了重要的作用:

·異步采樣;需要足夠快的推理來最小化控制環(huán)中的延時(shí),同時(shí)也希望在執(zhí)行過程中進(jìn)行訓(xùn)練。所以在實(shí)際情況中數(shù)據(jù)采樣和實(shí)際訓(xùn)練應(yīng)該由獨(dú)立的線程或進(jìn)程運(yùn)行;

·停止/假設(shè)訓(xùn)練;真實(shí)硬件中將會(huì)面臨一系列錯(cuò)誤情況,需要考慮數(shù)據(jù)流連續(xù)中斷的情況;

·運(yùn)動(dòng)平滑.典型的高斯探索(exploration)將會(huì)導(dǎo)致致動(dòng)器產(chǎn)生抖動(dòng),這會(huì)對硬件造成不利的影響甚至損傷驅(qū)動(dòng)器和機(jī)械結(jié)構(gòu),所以在實(shí)際中研究人員使用了探索的時(shí)域相關(guān)性來有效緩解這一問題。

SAC

SAC基于最大熵強(qiáng)化學(xué)習(xí)框架,其中的熵增目標(biāo)如下所示:

其中s和a是狀態(tài)和行動(dòng),期望則包含了策略和來自真實(shí)系統(tǒng)的動(dòng)力學(xué)性能。換句話說,優(yōu)化策略不僅最大化期望(第一項(xiàng)),同時(shí)還最大化期望的熵(第二項(xiàng))。其中的參數(shù)α平衡了這兩項(xiàng)對于結(jié)果的影響,當(dāng)α為0時(shí)上式就退化為傳統(tǒng)的預(yù)期回報(bào)目標(biāo)函數(shù)。研究人員認(rèn)為可以將上述目標(biāo)函數(shù)視為熵約束的最大化預(yù)期回報(bào),通過自動(dòng)學(xué)習(xí)α參數(shù)來代替超參數(shù)。我們可以從多個(gè)角度解釋這一目標(biāo)函數(shù)。既可以將熵看作是策略的先驗(yàn),也可以將其視為正則項(xiàng),同時(shí)也可以看作是探索(最大化熵)和利用(最大化回報(bào))間的平衡。SAC通過神經(jīng)網(wǎng)絡(luò)參數(shù)化高斯策略和Q函數(shù)來最大化這一目標(biāo)函數(shù),并利用近似動(dòng)力學(xué)編程來進(jìn)行優(yōu)化。基于這一目標(biāo)函數(shù)研究人員推導(dǎo)出了更好的強(qiáng)化學(xué)習(xí)算法,使其性能更加穩(wěn)定,并且達(dá)到足夠高的樣本效率來應(yīng)用到真實(shí)機(jī)器人中。

模擬基準(zhǔn)

為了評價(jià)新型算法的表現(xiàn),研究人員首先在仿真環(huán)境中利用標(biāo)準(zhǔn)的基準(zhǔn)任務(wù)來對SAC進(jìn)行了評測,并與深度確定性策略梯度算法(DDPG),孿生延遲深度確定性策略梯度算法(TD3),鄰近策略優(yōu)化(PPO)等算法進(jìn)行了比較。幾種算法在三種基本的模擬移動(dòng)任務(wù)上進(jìn)行了性能比較,分別是豹,螞蟻和人形。

三種移動(dòng)仿真任務(wù)

下圖描述了幾個(gè)算法在三個(gè)不同任務(wù)中的表現(xiàn),其中實(shí)線表示算法的平均回報(bào)而陰影則描述了算法表現(xiàn)的范圍,包含了最好和最壞的表現(xiàn)。SAC算法在下圖中由藍(lán)色表示,可以看到它的效果最好。更重要的是在最壞的情況下,它還可以保持較好的表現(xiàn)(這意味著在某些極端糟糕的情況下還能保持魯棒性)。

真實(shí)世界中的深度強(qiáng)化學(xué)習(xí)

為了檢驗(yàn)算法在真實(shí)世界中的能力,研究人員在不依賴仿真或者試教的情況下從零開始讓機(jī)器人學(xué)習(xí)解決三個(gè)任務(wù)。第一個(gè)任務(wù)中利用了小型四足機(jī)器人米諾陶,它擁有八個(gè)直驅(qū)致動(dòng)器。其運(yùn)動(dòng)空間由擺角和每條腿的延伸部分構(gòu)成,將運(yùn)動(dòng)映射到期望的電機(jī)位置,并利用PD控制器進(jìn)行跟蹤。其觀測數(shù)據(jù)包括電機(jī)角度、滾轉(zhuǎn)角度、俯仰角度以及基體的角速度。這一任務(wù)中欠驅(qū)動(dòng)的機(jī)器人需要精巧地平衡腿部接觸力大小來實(shí)現(xiàn)移動(dòng)。沒有訓(xùn)練過的機(jī)器人將會(huì)失去平衡并摔倒,摔倒太多次的試錯(cuò)將會(huì)損壞機(jī)器人,所以樣本效率是算法的關(guān)鍵。下面展示了學(xué)習(xí)后的算法表現(xiàn),雖然在平面上對機(jī)器人進(jìn)行的訓(xùn)練,但在測試時(shí)的不同崎嶇、動(dòng)態(tài)的地形上也獲得的較好的結(jié)果。這主要來源于SAC學(xué)習(xí)到了魯棒的策略,訓(xùn)練時(shí)的熵最大化使得策略可以很好地泛化這些地形的擾動(dòng)而無需額外的訓(xùn)練過程。

適應(yīng)多種路況的米諾陶

第二個(gè)項(xiàng)目是利用三指靈巧手來旋轉(zhuǎn)一個(gè)閥門的任務(wù)。其中機(jī)械手有9個(gè)自由度,由9個(gè)舵機(jī)控制。學(xué)習(xí)出的策略將向PID控制器發(fā)送關(guān)節(jié)的目標(biāo)角度來實(shí)現(xiàn)控制。為了感知到閥的位置,機(jī)器人需要機(jī)遇下圖中右下角的原始RGB圖像來獲取信息。機(jī)器人的目標(biāo)是將閥帶有顏色的一邊旋轉(zhuǎn)到下圖所示的位置。閥由一個(gè)獨(dú)立的電機(jī)控制,并按照均勻分布每次初始化到不同的位置(電機(jī)的位置同時(shí)也為訓(xùn)練提供了基準(zhǔn))。這將強(qiáng)制策略從原始的RGB中學(xué)習(xí)到閥當(dāng)前的朝向。這一任務(wù)也由于需要同時(shí)感知RGB圖像和對九個(gè)自由度的控制而增加了難度。

轉(zhuǎn)動(dòng)閥門的靈巧手

在最后的任務(wù)中,研究人員將訓(xùn)練7自由度的Sawyer來堆疊樂高塊。策略接收的信號包括關(guān)節(jié)的角度的速度以及末端執(zhí)行器的力作為輸入,同時(shí)輸出每個(gè)關(guān)節(jié)的力矩來控制機(jī)器人。這個(gè)任務(wù)中最大的挑戰(zhàn)在于需要先準(zhǔn)確的對好積木間的位置,隨后再用力克服插入的摩擦來安放積木。

堆樂高的Sawyer

SAC算法對于上面三個(gè)任務(wù)都給出了較快的解決:其中米諾陶全地形行走和Sawyer碼積木只用了兩個(gè)小時(shí)的訓(xùn)練時(shí)間,而靈巧手?jǐn)Q閥門則使用了20個(gè)小時(shí)。如果直接把閥門的角度告訴機(jī)器人而不是通過圖像去學(xué)習(xí),則只需要三個(gè)小時(shí)就能學(xué)會(huì)。而之前的PPO算法則需要7.4小時(shí)才能通過角度學(xué)會(huì)擰閥門。

實(shí)用化的DeepRL

SAC算法是深度強(qiáng)化學(xué)習(xí)實(shí)用化的關(guān)鍵一步,雖然在更具挑戰(zhàn)的場景和更大規(guī)模的情況下使用還需要很多的工作和研究,但SAC給出的結(jié)果已經(jīng)讓真實(shí)世界中的機(jī)器人向期待的目標(biāo)邁出了關(guān)鍵的一步,這對于強(qiáng)化學(xué)習(xí)在機(jī)器人領(lǐng)域的實(shí)用化具有十分重要的意義。如果小伙伴們想了解更多,請移步項(xiàng)目主頁:https://sites.google.com/view/sac-and-applications同時(shí),研究人員們還將大部分著名的機(jī)器人強(qiáng)化學(xué)習(xí)算法打包成了一個(gè)工具包rlkit,其中就包含了本文的SAC算法。開源不久目前已經(jīng)在git上收獲了384顆星。

可以直接利用conda運(yùn)行配置環(huán)境就可以直接開始愉快的玩耍了。https://github.com/vitchyr/rlkit此外還有一個(gè)利用PyTorch實(shí)現(xiàn)SAC的版本:https://github.com/rail-berkeley/softlearning以及:https://github.com/haarnoja/sac

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:Soft Actor-Critic——用于真實(shí)機(jī)器人的高效深度強(qiáng)化學(xué)習(xí)算法

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    什么是深度強(qiáng)化學(xué)習(xí)?深度強(qiáng)化學(xué)習(xí)算法應(yīng)用分析

    什么是深度強(qiáng)化學(xué)習(xí)? 眾所周知,人類擅長解決各種挑戰(zhàn)性的問題,從低級的運(yùn)動(dòng)控制(如:步行、跑步、打網(wǎng)球)到高級的認(rèn)知任務(wù)。
    發(fā)表于 07-01 10:29 ?1528次閱讀
    什么是深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b><b class='flag-5'>算法</b>應(yīng)用分析

    反向強(qiáng)化學(xué)習(xí)的思路

    強(qiáng)化學(xué)習(xí)的另一種策略(二)
    發(fā)表于 04-03 12:10

    AC算法的實(shí)現(xiàn)

    Keras深度強(qiáng)化學(xué)習(xí)--Actor-Critic實(shí)現(xiàn)
    發(fā)表于 08-02 06:51

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    內(nèi)容2:課程一: TensoRFlow入門到熟練:課程二:圖像分類:課程三:物體檢測:課程四:人臉識(shí)別:課程五:算法實(shí)現(xiàn):1、卷積神經(jīng)網(wǎng)絡(luò)CNN2、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN3、強(qiáng)化學(xué)習(xí)DRL4、對抗性生成
    發(fā)表于 01-10 13:42

    深度學(xué)習(xí)技術(shù)的開發(fā)與應(yīng)用

    時(shí)間安排大綱具體內(nèi)容實(shí)操案例三天關(guān)鍵點(diǎn)1.強(qiáng)化學(xué)習(xí)的發(fā)展歷程2.馬爾可夫決策過程3.動(dòng)態(tài)規(guī)劃4.無模型預(yù)測學(xué)習(xí)5.無模型控制學(xué)習(xí)6.價(jià)值函數(shù)逼近7.策略梯度方法8.深度強(qiáng)化學(xué)習(xí)-DQN
    發(fā)表于 04-21 14:57

    將深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

    深度強(qiáng)化學(xué)習(xí)DRL自提出以來, 已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo,將深度強(qiáng)化學(xué)習(xí)DRL成推上新的熱點(diǎn)和高度,成為人工智能歷史上一個(gè)新的里程碑。因此,深
    發(fā)表于 06-29 18:36 ?2.8w次閱讀

    人工智能機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎(jiǎng)勵(lì)信號(強(qiáng)化信號)函數(shù)值最大,強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督
    發(fā)表于 05-30 06:53 ?1437次閱讀

    基于強(qiáng)化學(xué)習(xí)的MADDPG算法原理及實(shí)現(xiàn)

    之前接觸的強(qiáng)化學(xué)習(xí)算法都是單個(gè)智能體的強(qiáng)化學(xué)習(xí)算法,但是也有很多重要的應(yīng)用場景牽涉到多個(gè)智能體之間的交互。
    的頭像 發(fā)表于 11-02 16:18 ?2.2w次閱讀

    如何構(gòu)建強(qiáng)化學(xué)習(xí)模型來訓(xùn)練無人車算法

    本文作者通過簡單的方式構(gòu)建了強(qiáng)化學(xué)習(xí)模型來訓(xùn)練無人車算法,可以為初學(xué)者提供快速入門的經(jīng)驗(yàn)。
    的頭像 發(fā)表于 11-12 14:47 ?4927次閱讀

    谷歌和UC伯克利的新式Actor-Critic算法快速在真實(shí)世界訓(xùn)練機(jī)器人

    近期,谷歌 AI 與 UC 伯克利大學(xué)合作研發(fā)了一種新的強(qiáng)化學(xué)習(xí)算法 Soft Actor-CriticSAC)。這是一種穩(wěn)定、高效的深度
    發(fā)表于 02-05 09:51 ?973次閱讀

    一個(gè)基于TF2.0的強(qiáng)化學(xué)習(xí)訓(xùn)練工具

    目前,Huskarl 已經(jīng)支持了 DQN(Deep Q-Learning Network)、Multi-step DQN、Double DQN、A2C(Advantage Actor-Critic
    的頭像 發(fā)表于 02-25 09:28 ?3494次閱讀
    一個(gè)基于TF2.0的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>訓(xùn)練工具

    基于PPO強(qiáng)化學(xué)習(xí)算法的AI應(yīng)用案例

    Viet Nguyen就是其中一個(gè)。這位來自德國的程序員表示自己只玩到了第9個(gè)關(guān)卡。因此,他決定利用強(qiáng)化學(xué)習(xí)AI算法來幫他完成未通關(guān)的遺憾。
    發(fā)表于 07-29 09:30 ?2842次閱讀

    機(jī)器學(xué)習(xí)中的無模型強(qiáng)化學(xué)習(xí)算法及研究綜述

    強(qiáng)化學(xué)習(xí)( Reinforcement learning,RL)作為機(jī)器學(xué)習(xí)領(lǐng)域中與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列的第三種學(xué)習(xí)范式,通過與環(huán)境進(jìn)行
    發(fā)表于 04-08 11:41 ?11次下載
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>中的無模型<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b><b class='flag-5'>算法</b>及研究綜述

    基于強(qiáng)化學(xué)習(xí)的目標(biāo)檢測算法案例

    摘要:基于強(qiáng)化學(xué)習(xí)的目標(biāo)檢測算法在檢測過程中通常采用預(yù)定義搜索行為,其產(chǎn)生的候選區(qū)域形狀和尺寸變化單一,導(dǎo)致目標(biāo)檢測精確度較低。為此,在基于深度強(qiáng)化學(xué)習(xí)的視覺目標(biāo)檢測算法基礎(chǔ)上,提出聯(lián)
    發(fā)表于 07-19 14:35 ?0次下載

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    的計(jì)算圖和自動(dòng)微分功能,非常適合實(shí)現(xiàn)復(fù)雜的強(qiáng)化學(xué)習(xí)算法。 1. 環(huán)境(Environment) 在強(qiáng)化學(xué)習(xí)中,環(huán)境是一個(gè)抽象的概念,它定義了智能體(agent)可以執(zhí)行的動(dòng)作(actions)、觀察到
    的頭像 發(fā)表于 11-05 17:34 ?398次閱讀
    主站蜘蛛池模板: 国产香蕉视频在线播放 | 天天操夜夜欢 | 综合激情网五月 | 2019天天操天天干天天透 | h视频免费在线 | 五月天婷婷一区二区三区久久 | 日本高清视频色 | 亚洲免费视频在线观看 | aaa在线观看高清免费 | 综合亚洲一区二区三区 | 俺也来俺也去俺也射 | 一级黄色录像毛片 | 丁香婷婷综合五月六月 | 美女午夜影院 | 你懂的视频在线看 | aaa一级最新毛片 | 你懂的在线免费视频 | 乱人伦小说短篇 | 日本午夜片成年www 日本午夜三级 | 四虎国产精品高清在线观看 | 特黄特色大片免费播放器9 特黄特色大片免费视频播放 | 欧美日韩精品一区二区另类 | 国产激爽大片在线播放 | 亚洲伊人天堂 | 国产亚洲人成网站观看 | 成年人网站免费观看 | 特级毛片免费看 | 天天天天做夜夜夜夜做 | 夜操| 国产精品久久久久久久久齐齐 | 国产精品11页 | 中国成熟xxx视频 | 亚洲福利秒拍一区二区 | 免费看黄的视频软件 | 色综合久久久久久久久久久 | 国产精品国产三级国快看 | 天天爽夜夜爽夜夜爽 | 亚洲成人网在线播放 | 国产午夜精品一区二区理论影院 | 性欧美视频videos6一9 | 久久99国产精品久久99 |