在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種能夠平滑銜接無模型和基于模型策略的強化學(xué)習(xí)算法

nlfO_thejiangme ? 來源:未知 ? 作者:李倩 ? 2018-05-04 09:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

試想一下我們希望從伯克利大學(xué)騎車到金門大橋,雖然僅僅只有二十公里之遙,但如果卻面臨一個天大的問題:你從來沒有騎過自行車!而且雪上加霜的是,你剛剛來到灣區(qū)對于路況很陌生,手頭僅僅只有一張市區(qū)的地圖。那我們該如何騎車去看心心念念的金門大橋呢?這個看似十分復(fù)雜的任務(wù)卻是機器人利用強化學(xué)習(xí)需要解決的問題。

讓我們先來看看如何學(xué)會騎自行車。一種方法是先盡可能多的學(xué)習(xí)知識并一步步的規(guī)劃自己的行為來實現(xiàn)騎車這一目標:通過讀如何騎自行車的書、學(xué)習(xí)相關(guān)的物理知識、規(guī)劃騎車時每一塊肌肉的運動...這種一板一眼的方式在研究中還可行,但是要是用來學(xué)習(xí)自行車那永遠也到不了金門大橋了。學(xué)習(xí)自行車正確的姿勢是不斷地嘗試不斷地試錯和練習(xí)。像學(xué)習(xí)騎自行車這樣太復(fù)雜的問題是不能通過實現(xiàn)規(guī)劃實現(xiàn)的。

當你學(xué)會騎車之后,下一步便是如果從伯克利到金門大橋了。你可以繼續(xù)利用試錯的策略嘗試各種路徑看看終點是不是在金門大橋。但這種方式顯而易見的缺點是我們可能需要十分十分久的時間才能到達。那么對于這樣簡單的問題,基于已有的信息規(guī)劃便是一種十分有效的策略了,無需太多真實世界的經(jīng)驗和試錯便能完成。在強化學(xué)習(xí)中意味著更加高效采樣的學(xué)習(xí)過程。

對于一些技能來說試錯學(xué)習(xí)十分有效,而對于另一些規(guī)劃卻來得更好

上面的例子雖然簡單但卻反映了人類智慧的重要特征,對于某些任務(wù)我們選擇利用試錯的方式,而某些任務(wù)則基于規(guī)劃來實現(xiàn)。同樣在強化學(xué)習(xí)中不同的方法也適用于不同的任務(wù)。

然而在上面的例子中兩種方法卻不是完全獨立的,事實上如果用試錯的方法來概括自行車的學(xué)習(xí)過程就太過于簡單了。當我們利用試錯的方法來學(xué)習(xí)自行車時,我們也利用了一點點規(guī)劃的方法。可能在一開始的時候你的計劃是不要摔倒,而后變?yōu)榱瞬灰さ沟仳T兩米。最后當你的技術(shù)不斷提高后,你的目標會變成更為抽象的概念比如要騎到道路的盡頭哦,這時候需要更多關(guān)注的是如何規(guī)劃這一目標而不是騎車的細節(jié)了。可以看到這是一個逐漸從無模型轉(zhuǎn)換為基于模型策略的過程。如果能將這種策略移植到強化學(xué)習(xí)算法中,那么我們就能得到既能表現(xiàn)良好(最初階段的試錯方法)又具有高效采樣特性(在后期轉(zhuǎn)化為利用規(guī)劃實現(xiàn)更為抽象的目標)的優(yōu)秀算法了。

這篇文章中主要介紹了時域差分模型,這是一種能夠平滑銜接無模型和基于模型策略的強化學(xué)習(xí)算法。接下來首先要介紹基于模型的算法是如何工作的。

基于模型的強化學(xué)習(xí)算法

在強化學(xué)習(xí)中通過動力學(xué)模型,在行為at的作用下狀態(tài)將從st轉(zhuǎn)化到st+1,學(xué)習(xí)的目標是最大化獎勵函數(shù)r(st,a,st+1)的和。基于模型的強化學(xué)習(xí)算法假設(shè)事先給定了一個動力學(xué)模型,那么我們假設(shè)模型的學(xué)習(xí)目標是最大化一系列狀態(tài)的獎勵函數(shù):

這一目標函數(shù)意味著在保證目標可行的狀態(tài)下選取一系列狀態(tài)和行為并最大化獎勵。可行意味著每一個狀態(tài)轉(zhuǎn)移是有效的。例如下圖中只有st+1是可行的狀態(tài)。即便其他狀態(tài)有更高的獎勵函數(shù)但是不可行的轉(zhuǎn)移也是無效的。

在我們的騎行問題中,優(yōu)化問題需要規(guī)劃一條從伯克利到金門大橋的路線:

上圖中現(xiàn)實的概念很好但是卻不現(xiàn)實。基于模型的方法利用模型f(s,a)來預(yù)測下一步的狀態(tài)。在機器人中每一步十分的時間十分短暫,更實際的規(guī)劃將會是像下圖一樣更為密集的狀態(tài)轉(zhuǎn)移:

回想我們每天騎自行車的過程我們的規(guī)劃其實是十分抽象的過程,我們通常都會規(guī)劃長期的目標而不是每一步具體的位置。而且我們僅僅在最開始的時候進行一次抽象的規(guī)劃。就像剛剛討論的那樣,我們需要一個起點來進行試錯的學(xué)習(xí),并需要提供一種機制來逐漸增加計劃的抽象性。于是我們引入了時域差分模型。

時域差分模型

時域差分模型一般形式為Q(s,a,sg,τ),給定當前狀態(tài)、行為以及目標狀態(tài)后,預(yù)測τ時間步長時主體與目標相隔的距離。直觀上TDM回答了這樣的問題:“如果我騎車去市中心,30分鐘后我將會距離市中心多近呢?”對于機器人來說測量距離主要使用歐式距離來度量。

上圖中的灰線代表了TMD算法計算出距離目標的距離。那么在強化學(xué)習(xí)中,我們可以將TMD視為在有限馬爾科夫決策過程中的條件Q函數(shù)。TMD是Q函數(shù)的一種,我們可以利用無模型的方法來進行訓(xùn)練。一般地人們會使用深度置信策略梯度來訓(xùn)練TDM并對目標和時間進行回溯標記以提高算法的采樣效率。理論上Q學(xué)習(xí)算法都可以用于訓(xùn)練TDM,但研究人員發(fā)現(xiàn)目前的算法更為有效。更多細節(jié)請參看論文。

利用TDM進行規(guī)劃

當訓(xùn)練結(jié)束后我們可以利用下面的目標函數(shù)進行規(guī)劃:

這里與基于模型策略不同的地方在于每K步進行一次規(guī)劃,而不是每一步。等式右端的零保證了每一次狀態(tài)轉(zhuǎn)移軌跡的有效性:

規(guī)劃就從上面的細碎的步驟變成了下圖整體的,更為抽象和長期的策略:

當我們增加K時,就能獲得更為長期和抽象的規(guī)劃。在K步之間利用無模型的方法來選擇行為,使用無模型的策略來抽象達成這些目標的過程,最后在K足夠大的情況下實現(xiàn)了下圖的規(guī)劃情況,基于模型的方法用于選擇抽象目標而無模型的方法則用于達到這些目標:

需要注意的是這種方法只能在K步的地方進行優(yōu)化,而現(xiàn)實情況下卻只關(guān)心某些特殊的狀態(tài)(如最終狀態(tài))。

實驗

研究人員們利用TMD算法進行了兩個實驗,首先是利用模擬機械臂將圓柱推到目標位置:

可以發(fā)現(xiàn)TMD算法比無模型的DDPG算法和基于模型的算法都下降的快,其快速學(xué)習(xí)能力來自于之前提到的基于模型的高效采樣。

另一個實驗是利用機器人進行定位的任務(wù),下圖是實驗的示意圖和學(xué)習(xí)曲線:

上圖現(xiàn)實基于模型的方法在訓(xùn)練到一定次數(shù)后就停滯了,而基于DDPG的無模型方法則下降緩慢,但最終效果強于基于模型的方法。而TMD方法則即快速有優(yōu)異,結(jié)合了上述兩者的優(yōu)點。

未來方向

時域差分模型為無模型和基于模型的方法提供了有效的數(shù)學(xué)描述和實現(xiàn)方法,但還有一系列工作需要完善。首先理論中假設(shè)環(huán)境和策略是確定的,而實際中卻存在一定的隨機性。這方面的研究將促進TMD對于真實環(huán)境的適應(yīng)性。此外TMD可以和可選擇的基于模型的規(guī)劃方法結(jié)合優(yōu)化。最后還希望未來將TMD用于真實機器人的定位、操作任務(wù),甚至騎車到金門大橋去。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    29583

    瀏覽量

    212029
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3501

    瀏覽量

    50161
  • 學(xué)習(xí)算法
    +關(guān)注

    關(guān)注

    0

    文章

    16

    瀏覽量

    7529

原文標題:UC Berkeley提出新的時域差分模型策略:從無模型到基于模型的深度強化學(xué)習(xí)

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    反向強化學(xué)習(xí)的思路

    強化學(xué)習(xí)的另一種策略(二)
    發(fā)表于 04-03 12:10

    隨機塊模型學(xué)習(xí)算法

    主要挑戰(zhàn).提出一種精細隨機塊模型及其快速學(xué)習(xí)算法,該學(xué)習(xí)方法基于提出的模型與最小消息長度推導(dǎo)出
    發(fā)表于 01-09 18:20 ?1次下載

    簡單隨機搜索:模型強化學(xué)習(xí)的高效途徑

    讓我們在強化學(xué)習(xí)社區(qū)感興趣的問題上應(yīng)用隨機搜索。深度強化學(xué)習(xí)領(lǐng)域直把大量時間和精力用于由OpenAI維護的、基于MuJoCo模擬器的套基準測試中。這里,最優(yōu)控制問題指的是讓
    的頭像 發(fā)表于 04-01 09:35 ?4636次閱讀
    簡單隨機搜索:<b class='flag-5'>無</b><b class='flag-5'>模型</b><b class='flag-5'>強化學(xué)習(xí)</b>的高效途徑

    斯坦福提出基于目標的策略強化學(xué)習(xí)方法——SOORL

    為了達到人類學(xué)習(xí)的速率,斯坦福的研究人員們提出了一種基于目標的策略強化學(xué)習(xí)方法——SOORL,把重點放在對策略的探索和
    的頭像 發(fā)表于 06-06 11:18 ?5649次閱讀
    斯坦福提出基于目標的<b class='flag-5'>策略</b><b class='flag-5'>強化學(xué)習(xí)</b>方法——SOORL

    如何構(gòu)建強化學(xué)習(xí)模型來訓(xùn)練無人車算法

    本文作者通過簡單的方式構(gòu)建了強化學(xué)習(xí)模型來訓(xùn)練無人車算法,可以為初學(xué)者提供快速入門的經(jīng)驗。
    的頭像 發(fā)表于 11-12 14:47 ?5103次閱讀

    深度強化學(xué)習(xí)到底是什么?它的工作原理是怎么樣的

    深度學(xué)習(xí)DL是機器學(xué)習(xí)一種基于對數(shù)據(jù)進行表征學(xué)習(xí)的方法。深度學(xué)習(xí)DL有監(jiān)督和非監(jiān)督之分,都已經(jīng)得到廣泛的研究和應(yīng)用。
    的頭像 發(fā)表于 06-13 11:39 ?6608次閱讀

    美國陸軍研發(fā)了一種高效的地面機器人學(xué)習(xí)模型

    美國陸軍面向未來多域作戰(zhàn)概念研發(fā)了一種高效的地面機器人學(xué)習(xí)模型,該模型提出基于強化學(xué)習(xí)策略,可
    的頭像 發(fā)表于 01-06 09:20 ?1948次閱讀

    機器學(xué)習(xí)中的模型強化學(xué)習(xí)算法及研究綜述

    強化學(xué)習(xí)( Reinforcement learning,RL)作為機器學(xué)習(xí)領(lǐng)域中與監(jiān)督學(xué)習(xí)監(jiān)督學(xué)習(xí)并列的第三
    發(fā)表于 04-08 11:41 ?11次下載
    機器<b class='flag-5'>學(xué)習(xí)</b>中的<b class='flag-5'>無</b><b class='flag-5'>模型</b><b class='flag-5'>強化學(xué)習(xí)</b><b class='flag-5'>算法</b>及研究綜述

    模型化深度強化學(xué)習(xí)應(yīng)用研究綜述

    深度強化學(xué)習(xí)(DRL)作為機器學(xué)習(xí)的重要分攴,在 Alphago擊敗人類后受到了廣泛關(guān)注。DRL以試錯機制與環(huán)境進行交互,并通過最大化累積獎賞最終得到最優(yōu)策略
    發(fā)表于 04-12 11:01 ?9次下載
    <b class='flag-5'>模型</b>化深度<b class='flag-5'>強化學(xué)習(xí)</b>應(yīng)用研究綜述

    基于深度強化學(xué)習(xí)仿真集成的壓邊力控制模型

    壓邊力控制策略學(xué)習(xí)優(yōu)化。基于深度強化學(xué)習(xí)的壓邊力優(yōu)化算法,利用深度神經(jīng)網(wǎng)絡(luò)處理巨大的狀態(tài)空間,避免了系統(tǒng)動力學(xué)的擬合,并且使用一種新的網(wǎng)絡(luò)
    發(fā)表于 05-27 10:32 ?0次下載

    一種新型的多智能體深度強化學(xué)習(xí)算法

    一種新型的多智能體深度強化學(xué)習(xí)算法
    發(fā)表于 06-23 10:42 ?36次下載

    強化學(xué)習(xí)的基礎(chǔ)知識和6基本算法解釋

    來源:DeepHub IMBA 強化學(xué)習(xí)的基礎(chǔ)知識和概念簡介(模型、在線學(xué)習(xí)、離線強化學(xué)習(xí)等) 機器學(xué)
    的頭像 發(fā)表于 12-20 14:00 ?1341次閱讀

    7個流行的強化學(xué)習(xí)算法及代碼實現(xiàn)

    已被用于在游戲、機器人和決策制定等各種應(yīng)用中,并且這些流行的算法還在不斷發(fā)展和改進,本文我們將對其做個簡單的介紹。 1、Q-learning Q-learning:Q-learning 是一種
    的頭像 發(fā)表于 02-03 20:15 ?1409次閱讀

    強化學(xué)習(xí)的基礎(chǔ)知識和6基本算法解釋

    來源:DeepHubIMBA強化學(xué)習(xí)的基礎(chǔ)知識和概念簡介(模型、在線學(xué)習(xí)、離線強化學(xué)習(xí)等)機器學(xué)習(xí)
    的頭像 發(fā)表于 01-05 14:54 ?1325次閱讀
    <b class='flag-5'>強化學(xué)習(xí)</b>的基礎(chǔ)知識和6<b class='flag-5'>種</b>基本<b class='flag-5'>算法</b>解釋

    通過強化學(xué)習(xí)策略進行特征選擇

    更快更好地學(xué)習(xí)。我們的想法是找到最優(yōu)數(shù)量的特征和最有意義的特征。在本文中,我們將介紹并實現(xiàn)一種新的通過強化學(xué)習(xí)策略的特征選擇。我們先討論強化學(xué)習(xí)
    的頭像 發(fā)表于 06-05 08:27 ?614次閱讀
    通過<b class='flag-5'>強化學(xué)習(xí)</b><b class='flag-5'>策略</b>進行特征選擇
    主站蜘蛛池模板: 天天视频一区二区三区 | 丁香综合在线 | 人人操天天射 | 丁香花在线观看免费观看 | 182.t v香蕉人人网站 | 777成了人乱视频 | 久操综合 | 91aaa免费观看在线观看资源 | 四虎电影院 | 狠狠色婷婷丁香六月 | 糖心vlog麻豆精东影业传媒 | 龙口护士门91午夜国产在线 | 特黄特色| www.婷婷| 糖心vlog麻豆精东影业传媒 | 另类free性欧美护士 | 欧美激情亚洲精品日韩1区2区 | 午夜小福利 | 400部大量精品情侣网站 | 色欲香天天天综合网站 | 日本色视 | 欧美又粗又长又湿又黄的视频 | jk黑色丝袜美腿老师啪啪 | 四虎影视大全免费入口 | 啪啪91视频 | 美女被免网站在线视频 | 激情六月婷婷开心丁香开心 | 色在线免费观看 | www.五月激情 | 欧美高清a | 亚洲福利一区二区三区 | bt天堂在线www中文在线 | 黄色的视频在线免费观看 | 国产成人精品男人的天堂538 | 在线色资源 | 天天摸天天操天天爽 | 午夜啪 | 亚洲综合一区二区 | 综合免费一区二区三区 | 高清国产美女在线观看 | 欧美一区高清 |