在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種基于模型的元強(qiáng)化學(xué)習(xí)算法用于提高快速適應(yīng)性

nlfO_thejiangme ? 來(lái)源:lq ? 2019-05-10 09:47 ? 次閱讀

人類具有適應(yīng)環(huán)境變化的強(qiáng)大能力:我們可以迅速地學(xué)會(huì)住著拐杖走路、也可以在撿起位置物品時(shí)迅速地調(diào)整自己的力量輸出,甚至小朋友在不同地面上行走都能輕松自如地切換自己的步態(tài)和行走模式。這樣的適應(yīng)能力對(duì)于在復(fù)雜多變的環(huán)境中生存活動(dòng)十分重要。但這些看似是人類與生俱來(lái)的能力,機(jī)器人拼盡全力也未必能實(shí)現(xiàn)。

絕大部分的機(jī)器人都被部署在固定環(huán)境中重復(fù)執(zhí)行固定的動(dòng)作,但面對(duì)未知的全新情況機(jī)器人就會(huì)失效,甚至是運(yùn)行環(huán)境的些許變化,比如一陣風(fēng)來(lái)了、負(fù)載質(zhì)量改變或意外的擾動(dòng)都會(huì)給機(jī)器人帶來(lái)難以處理的困難。為了縮小機(jī)器人與人類對(duì)于環(huán)境適應(yīng)能力間的差距,研究人員認(rèn)為機(jī)器人預(yù)測(cè)狀態(tài)與實(shí)際觀測(cè)狀態(tài)間如果存在較大的誤差,那么這個(gè)誤差應(yīng)該要引導(dǎo)機(jī)器人更新自身模型,以更好地描述當(dāng)前狀態(tài),也就是快速的環(huán)境適應(yīng)性。

有一個(gè)形象的例子來(lái)解釋這種適應(yīng)性,很多小伙伴在開(kāi)車時(shí),特別在北方的冬天都遇到過(guò)車輛側(cè)滑的情況,駕駛員發(fā)現(xiàn)預(yù)測(cè)車的行駛狀況與實(shí)際不符,本來(lái)該直走的車怎么橫著開(kāi)了!這時(shí)駕駛員就根據(jù)這個(gè)誤差迅速調(diào)整自身操作來(lái)糾正車輛行駛狀態(tài)。這個(gè)過(guò)程就是我們期望機(jī)器人能夠?qū)W會(huì)的快速適應(yīng)能力。

對(duì)于一個(gè)要面對(duì)錯(cuò)綜復(fù)雜真實(shí)世界的機(jī)器人來(lái)說(shuō),從先前經(jīng)驗(yàn)中迅速、靈活地調(diào)整自身狀態(tài)和行為適應(yīng)環(huán)境是十分重要的。為了實(shí)現(xiàn)這個(gè)目標(biāo),研究人員開(kāi)發(fā)了一種基于模型的元強(qiáng)化學(xué)習(xí)算法用于提高快速適應(yīng)性。先前的工作主要基于試錯(cuò)的方法和無(wú)模型的元強(qiáng)化學(xué)習(xí)方法來(lái)處理這一問(wèn)題,而在本文的研究人員將這一問(wèn)題拓展到了極端情況,機(jī)器人在面對(duì)新情況時(shí)需要實(shí)時(shí)在線、在幾個(gè)時(shí)間周期內(nèi)迅速完成適應(yīng),所以實(shí)現(xiàn)這一目標(biāo)的難度可想而知。基于模型的元學(xué)習(xí)方法不像先前方法基于目標(biāo)的獎(jiǎng)勵(lì)來(lái)優(yōu)化,而是利用每一時(shí)刻預(yù)測(cè)與觀測(cè)間的誤差作為數(shù)據(jù)輸入來(lái)處理模型。這種基于模型的方法使機(jī)器人在使用少量數(shù)據(jù)的情況下實(shí)現(xiàn)對(duì)環(huán)境的實(shí)時(shí)更新。

這一方法利用了最近的觀測(cè)數(shù)據(jù)來(lái)對(duì)模型進(jìn)行更新,但真正的挑戰(zhàn)在于如何基于少量的數(shù)據(jù)對(duì)復(fù)雜、非線性、大容量的模型(例如神經(jīng)網(wǎng)絡(luò))進(jìn)行自適應(yīng)控制。簡(jiǎn)單的隨機(jī)梯度下降方法對(duì)于需要快速適應(yīng)的方法效率很低,神經(jīng)網(wǎng)絡(luò)需要大量的數(shù)據(jù)來(lái)訓(xùn)練模型才能實(shí)現(xiàn)有效的更新。所以為了實(shí)現(xiàn)快速的自適應(yīng)調(diào)整,研究人員提出了新的方法。首先利用自適應(yīng)目標(biāo)對(duì)進(jìn)行(元)訓(xùn)練,而后在使用時(shí)利用少量的數(shù)據(jù)進(jìn)行精細(xì)訓(xùn)練以實(shí)現(xiàn)快速適應(yīng)性調(diào)整。在不同情況下訓(xùn)練出的元模型將學(xué)會(huì)如何去適應(yīng),機(jī)器人就可以利用元模型在每一個(gè)時(shí)間步長(zhǎng)上進(jìn)行適應(yīng)性更新以處理當(dāng)前所面對(duì)的環(huán)境,以實(shí)現(xiàn)快速在線適應(yīng)的目標(biāo)。

元訓(xùn)練

機(jī)器人的運(yùn)動(dòng)離不開(kāi)對(duì)狀態(tài)的估計(jì)。在任意時(shí)刻下我們都可以對(duì)當(dāng)前狀態(tài)St,施加一定的行為at,從而得到下一時(shí)刻的狀態(tài)St+1,這一狀態(tài)的變化主要由狀態(tài)轉(zhuǎn)移函數(shù)決定。在真實(shí)世界中,我們無(wú)法精確建立狀態(tài)轉(zhuǎn)移動(dòng)力學(xué)過(guò)程,但可以利用學(xué)習(xí)到的動(dòng)力學(xué)模型進(jìn)行近似,這樣就可以基于觀測(cè)數(shù)據(jù)進(jìn)行預(yù)測(cè)。上圖中的規(guī)劃器就可以利用這一估計(jì)的動(dòng)力學(xué)模型來(lái)進(jìn)行行為調(diào)整。在訓(xùn)練時(shí)模型會(huì)選取最近的(M+K)連續(xù)的數(shù)據(jù)點(diǎn)序列,首先利用M個(gè)數(shù)據(jù)來(lái)更新模型的權(quán)重,隨后利用身下的K個(gè)點(diǎn)來(lái)優(yōu)化跟新后的模型對(duì)于新?tīng)顟B(tài)的預(yù)測(cè)能力。模型的損失函數(shù)可以表達(dá)為在先前K個(gè)點(diǎn)上進(jìn)行適應(yīng)后,在未來(lái)K個(gè)點(diǎn)上的預(yù)測(cè)誤差。這意味著訓(xùn)練模型可以利用鄰近的數(shù)據(jù)點(diǎn)迅速調(diào)整權(quán)重使自身可以進(jìn)行較好的動(dòng)力學(xué)預(yù)測(cè)。

為了測(cè)試這種方法對(duì)于環(huán)境突變的適應(yīng)能力,研究人員首先在仿真機(jī)器人系統(tǒng)中進(jìn)行了實(shí)驗(yàn)。研究人員在相同擾動(dòng)下的環(huán)境中多所有主體進(jìn)行了元訓(xùn)練,而在主體從未見(jiàn)過(guò)的環(huán)境及變化中進(jìn)行測(cè)試。下面的獵豹模型在隨機(jī)浮動(dòng)的擾動(dòng)上進(jìn)行訓(xùn)練,隨后在水上浮動(dòng)的情況下進(jìn)行了測(cè)試,機(jī)器人展現(xiàn)了快速適應(yīng)環(huán)境變化的能力。右圖顯示了在斷腿的情況下機(jī)器人的適應(yīng)性:

機(jī)器人面對(duì)環(huán)境變化后的適應(yīng)能力,圖中展示了基于模型的方法和基于在線自適應(yīng)的方法

對(duì)于多足機(jī)器人來(lái)說(shuō),在不同腿配置的情況下進(jìn)行了訓(xùn)練,而在不同腿部損傷情況下進(jìn)行了測(cè)試。這種基于模型的元強(qiáng)化學(xué)習(xí)方法使得機(jī)器人具有快速適應(yīng)能力,更多的比較測(cè)試詳見(jiàn)文末論文。

硬件實(shí)驗(yàn)

為了更好地驗(yàn)證算法在真實(shí)世界中的有效性,研究人員使用了具有高度隨機(jī)性和動(dòng)力學(xué)特性微型6足機(jī)器人。

快速制造技術(shù)和多種定制化的設(shè)計(jì),使得每一個(gè)機(jī)器人的動(dòng)力學(xué)特性都獨(dú)一無(wú)二。它的零部件性能會(huì)隨著使用逐漸退化,同時(shí)也能在不同地面上快速移動(dòng)。這使機(jī)器人控制算法面臨著會(huì)隨時(shí)變化的環(huán)境狀況,十分適合用于驗(yàn)證算法。研究人員首先在不同的地面狀況下對(duì)機(jī)器人進(jìn)行元訓(xùn)練,隨后測(cè)試了機(jī)器在新情況下的在線適應(yīng)能力。在斷腿、新地表、斜坡路況、負(fù)載變化、錯(cuò)誤標(biāo)定擾動(dòng)等情況下都表現(xiàn)良好。可以看到不同情況下最右邊的在線適應(yīng)方法更為穩(wěn)定,適應(yīng)不同情況的能力更強(qiáng)。腿斷了也能盡力走直線了:

加上負(fù)載也不會(huì)走的歪歪扭扭:

位姿錯(cuò)誤標(biāo)定也能及時(shí)更新糾正:

在和標(biāo)準(zhǔn)基于模型的方法(MB)、動(dòng)力學(xué)評(píng)測(cè)的方法(MB+DE)比較中都顯示了這種方法的優(yōu)勢(shì)。在各個(gè)指標(biāo)上都取得了遠(yuǎn)超傳統(tǒng)方法的結(jié)果。

在未來(lái)研究人員計(jì)劃對(duì)模型進(jìn)行改進(jìn),使它的能力隨著時(shí)間逐漸增長(zhǎng)而不是每次都需要從預(yù)訓(xùn)練模型進(jìn)行精調(diào)。并能夠記住在學(xué)習(xí)過(guò)程中學(xué)到的技能,將在線適應(yīng)的學(xué)習(xí)到的新能力作為未來(lái)遇到新情況時(shí)的先驗(yàn)技能提高模型表現(xiàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    29508

    瀏覽量

    211633
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4700

    瀏覽量

    94789
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    269

    瀏覽量

    11517

原文標(biāo)題:伯克利提出高效在線適應(yīng)算法,讓機(jī)器人擁有快速適應(yīng)環(huán)境變化的新能力

文章出處:【微信號(hào):thejiangmen,微信公眾號(hào):將門(mén)創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于MPEG心理聲學(xué)模型II的自適應(yīng)音頻水印算法

    音頻水印作為保護(hù)音頻作品的版權(quán)和秘密通信的可行方法,成為近年數(shù)字水印研究領(lǐng)域中的個(gè)熱點(diǎn)。針對(duì)目前音頻水印算法研究中自適應(yīng)性能沒(méi)有得到重視的問(wèn)題,提出一種基于心理聲學(xué)
    發(fā)表于 03-04 22:13

    反向強(qiáng)化學(xué)習(xí)的思路

    強(qiáng)化學(xué)習(xí)的另一種策略(二)
    發(fā)表于 04-03 12:10

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    內(nèi)容2:課程: TensoRFlow入門(mén)到熟練:課程二:圖像分類:課程三:物體檢測(cè):課程四:人臉識(shí)別:課程五:算法實(shí)現(xiàn):1、卷積神經(jīng)網(wǎng)絡(luò)CNN2、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN3、強(qiáng)化學(xué)習(xí)DRL4、對(duì)抗性生成
    發(fā)表于 01-10 13:42

    一種用于室內(nèi)復(fù)雜環(huán)境的高精度、環(huán)境自適應(yīng)性強(qiáng)的定位算法

    摘要對(duì)于室內(nèi)復(fù)雜環(huán)境來(lái)說(shuō), 適用于室外定位的 GPS 系統(tǒng)和蜂窩移動(dòng)網(wǎng)絡(luò)在室內(nèi)中的定位精度明顯惡化, 無(wú)法滿足室內(nèi)用戶精確定位的需求。因此, 研究一種用于室內(nèi)復(fù)雜環(huán)境的高精度、環(huán)境自適應(yīng)性
    發(fā)表于 08-18 08:12

    一種新的具適應(yīng)性的程序結(jié)構(gòu)

    TRAP/J結(jié)構(gòu)可以將可適應(yīng)性透明地加入已有的應(yīng)用程序中,不用修改應(yīng)用程序源代碼和虛擬機(jī)。該文提出一種新的具適應(yīng)性的結(jié)構(gòu),采用包裝類和AspectJ獲得對(duì)原類的封裝和替代,使用
    發(fā)表于 04-09 09:25 ?11次下載

    一種新的快速適應(yīng)車牌定位方法

    針對(duì)現(xiàn)存車牌定位方法自適應(yīng)性差和魯棒不強(qiáng)的情況,本文提出了一種新的快速適應(yīng)車牌定位算法.此
    發(fā)表于 08-26 08:19 ?27次下載

    基于強(qiáng)化學(xué)習(xí)的MADDPG算法原理及實(shí)現(xiàn)

    之前接觸的強(qiáng)化學(xué)習(xí)算法都是單個(gè)智能體的強(qiáng)化學(xué)習(xí)算法,但是也有很多重要的應(yīng)用場(chǎng)景牽涉到多個(gè)智能體之間的交互。
    的頭像 發(fā)表于 11-02 16:18 ?2.2w次閱讀

    如何構(gòu)建強(qiáng)化學(xué)習(xí)模型來(lái)訓(xùn)練無(wú)人車算法

    本文作者通過(guò)簡(jiǎn)單的方式構(gòu)建了強(qiáng)化學(xué)習(xí)模型來(lái)訓(xùn)練無(wú)人車算法,可以為初學(xué)者提供快速入門(mén)的經(jīng)驗(yàn)。
    的頭像 發(fā)表于 11-12 14:47 ?5084次閱讀

    如何測(cè)試強(qiáng)化學(xué)習(xí)智能體適應(yīng)性

    強(qiáng)化學(xué)習(xí)(RL)能通過(guò)獎(jiǎng)勵(lì)或懲罰使智能體實(shí)現(xiàn)目標(biāo),并將它們學(xué)習(xí)到的經(jīng)驗(yàn)轉(zhuǎn)移到新環(huán)境中。
    的頭像 發(fā)表于 12-24 09:29 ?3415次閱讀

    深度強(qiáng)化學(xué)習(xí)到底是什么?它的工作原理是怎么樣的

    深度學(xué)習(xí)DL是機(jī)器學(xué)習(xí)一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。深度學(xué)習(xí)DL有監(jiān)督和非監(jiān)督之分,都已經(jīng)得到廣泛的研究和應(yīng)用。
    的頭像 發(fā)表于 06-13 11:39 ?6567次閱讀

    機(jī)器學(xué)習(xí)中的無(wú)模型強(qiáng)化學(xué)習(xí)算法及研究綜述

    強(qiáng)化學(xué)習(xí)( Reinforcement learning,RL)作為機(jī)器學(xué)習(xí)領(lǐng)域中與監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)并列的第三
    發(fā)表于 04-08 11:41 ?11次下載
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>中的無(wú)<b class='flag-5'>模型</b><b class='flag-5'>強(qiáng)化學(xué)習(xí)</b><b class='flag-5'>算法</b>及研究綜述

    模型化深度強(qiáng)化學(xué)習(xí)應(yīng)用研究綜述

    強(qiáng)化學(xué)習(xí)。無(wú)模型強(qiáng)仳學(xué)習(xí)方法的訓(xùn)練過(guò)程需要大量樣本,當(dāng)采樣預(yù)算不足,無(wú)法收集大量樣本時(shí),很難達(dá)到預(yù)期效果。然而,模型強(qiáng)化學(xué)習(xí)可以充分利用環(huán)
    發(fā)表于 04-12 11:01 ?9次下載
    <b class='flag-5'>模型</b>化深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>應(yīng)用研究綜述

    基于深度強(qiáng)化學(xué)習(xí)仿真集成的壓邊力控制模型

    壓邊為改善板料拉深制造的成品質(zhì)量,釆用深度強(qiáng)化學(xué)習(xí)的方法進(jìn)行拉深過(guò)程旳壓邊力優(yōu)化控制。提岀一種基于深度強(qiáng)化學(xué)習(xí)與有限仿真集成的壓邊力控制模型
    發(fā)表于 05-27 10:32 ?0次下載

    一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法

    一種新型的多智能體深度強(qiáng)化學(xué)習(xí)算法
    發(fā)表于 06-23 10:42 ?36次下載

    7個(gè)流行的強(qiáng)化學(xué)習(xí)算法及代碼實(shí)現(xiàn)

    已被用于在游戲、機(jī)器人和決策制定等各種應(yīng)用中,并且這些流行的算法還在不斷發(fā)展和改進(jìn),本文我們將對(duì)其做個(gè)簡(jiǎn)單的介紹。 1、Q-learning Q-learning:Q-learning 是
    的頭像 發(fā)表于 02-03 20:15 ?1398次閱讀
    主站蜘蛛池模板: 亚洲国内精品自在线影视 | 亚洲另类激情综合偷自拍 | 天堂在线最新资源 | 四虎www. | 亚洲黄色第一页 | 很黄很污的视频网站 | se94se亚洲欧美在线 | 99九九成人免费视频精品 | 日日操夜夜操狠狠操 | 黄色综合网站 | 性欧美成人依依影院 | 亚洲欧美一区二区三区四区 | 色吧综合网| 久久久久久久久综合影视网 | 美女扒开尿口让男人捅 | 国产视频国产 | 色婷婷色综合 | 91视频综合网 | 国产乱辈通伦影片在线播放亚洲 | 色播丁香| 日本污污视频 | 国产午夜精品视频 | 久久综合九色综合98一99久久99久 | 天天插天天干 | 天天插天天干 | 欧美人与zoxxxx | 伊人久久大香线蕉电影院 | 男女交性视频免费视频 | 亚洲黄色激情网 | 狠狠操操| 色偷偷91综合久久噜噜 | 日本不卡免费高清一级视频 | 天天干天天操天天摸 | 午夜影院视频 | 在线综合网 | 国产日本三级在线播放线观看 | 黄网页在线观看 | 琪琪see色原网一区二区 | 久国产精品久久精品国产四虎 | 国产黄色大片网站 | 最近2018中文字幕免费看在线 |