91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種利用任何形式的先驗策略來改進初始化強化學習任務的探索的方法

倩倩 ? 來源:AI前線 ? 作者:谷歌 AI ? 2022-09-06 14:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

強化學習可以用于訓練一種策略,使其能夠在試錯的情況下來完成任務,但強化學習面臨的最大挑戰就是,如何在具有艱難探索挑戰的環境中從頭學習策略。比如,考慮到 adroit manipulation 套件中的 door-binary-v0 環境所描述的設置,其中強化學習智能體必須在三維空間中控制一只手來打開放在它前面的門。

由于智能體沒有收到任何中間獎勵,它無法衡量自己離完成任務有多遠,所以只能在空間里隨機探索,直至門被打開為止。鑒于這項任務所需的時間以及對其進行精準的控制,這種可能性微乎其微。

對于這樣的任務,我們可以通過使用先驗信息來規避對狀態空間的隨機探索。這種先驗信息有助于智能體了解環境的哪些狀態是好的,應該進一步探索。

我們可以利用離線數據(即由人類演示者、腳本策略或其他強化學習智能體收集的數據),對策略進行訓練,并將之用于初始化新的強化學習策略。如果采用神經網絡來表達策略,則需要將預訓練好的神經網絡復制到新的強化學習策略中。這一過程使得新的強化學習策略看起來就像是預訓練好的。但是,用這種幼稚的方式來進行新的強化學習通常是行不通的,尤其是基于值的強化學習方法,如下所示。

7ca49590-2da6-11ed-ba43-dac502259ad0.jpg

用離線數據在 antmaze-large-diverse-v0 D4RL 環境中對一種策略進行預訓練(負向步驟對應預訓練)。然后,我們使用該策略來初始化 actor-crittic 的微調(從第 0 步開始的正向步驟),以該預訓練的策略作為初始 actor。crittic 是隨機初始化的。由于未經訓練的 critic 提供了一個糟糕的學習信號,并導致良好的初始策略被遺忘,所以 actor 的性能會立即下降,并且不會恢復。

有鑒于此,我們在“跳躍式強化學習”(Jump-Start Reinforcement Learning,JSRL)中,提出了一種可以利用任意一種與現存在的策略對任意一種強化學習算法進行初始化的元算法。

JSRL 在學習任務時采用了兩種策略:一種是指導策略,另一種是探索策略。探索策略是一種強化學習策略,通過智能體從環境中收集的新經驗進行在線訓練,而指導策略是一種預先存在的任何形式的策略,在在線訓練中不被更新。在這項研究中,我們關注的是指導策略從演示中學習的情景,但也可以使用許多其他類型的指導策略。JSRL 通過滾動指導策略創建了一個學習課程,然后由自我改進的探索策略跟進,其結果是與競爭性的 IL+RL 方法相比較或改進的性能。

JSRL 方法

指導策略可以采取任何形式:它可以是一種腳本化的策略,一種用于強化學習訓練的策略,甚至是一個真人演示者。唯一的要求是,指導策略要合理(也就是優于隨機探索),而且可以根據對環境的觀察來選擇行動。理想情況下,指導策略可以在環境中達到較差或中等的性能,但不能通過額外的微調來進一步改善自己。然后,JSRL 允許我們利用這個指導策略的進展,從而提到它的性能。

在訓練開始時,我們將指導策略推出一個固定的步驟,使智能體更接近目標狀態。然后,探索策略接手,繼續在環境中行動以達到這些目標。隨著探索策略性能的提高,我們逐漸減少指導策略的步驟,直到探索策略完全接管。這個過程為探索策略創建了一個起始狀態的課程,這樣在每個課程階段,它只需要學習達到之前課程階段的初始狀態。

這個任務是讓機械臂拿起藍色木塊。指導策略可以將機械臂移動到木塊上,但不能將其拾起。它控制智能體,直到它抓住木塊,然后由探索策略接管,最終學會拿起木塊。隨著探索策略的改進,指導策略對智能體的控制越來越少。

與 IL+RL 基線的比較

由于 JSRL 可以使用先前的策略來初始化強化學習,一個自然的比較是模仿和強化學習(IL+RL)方法,該方法在離線數據集上進行訓練,然后用新的在線經驗對預訓練的策略進行微調。我們展示了 JSRL 在 D4RL 基準任務上與具有競爭力的 IL+RL 方法的比較情況。這些任務包括模擬機器人控制環境,以及來自人類演示者的離線數據集、計劃者和其他學到的策略。在 D4RL 任務中,我們重點關注困難的螞蟻迷宮和 adroit dexterous manipulation 環境。

7cbf5b14-2da6-11ed-ba43-dac502259ad0.jpg

對于每個實驗,我們在一個離線數據集上進行訓練,然后運行在線微調。我們與專門為每個環境設計的算法進行比較,這些算法包括 AWAC、IQL、CQL 和行為克隆。雖然 JSRL 可以與任何初始指導策略或微調算法結合使用,但我們使用我們最強大的基線——IQL,作為預訓練的指導和微調。完整的 D4RL 數據集包括每個螞蟻迷宮任務的一百萬個離線轉換。每個轉換是一個格式序列(S, A, R, S'),它指定了智能體開始時的狀態(S),智能體采取的行動(A),智能體收到的獎勵(R),以及智能體在采取行動 A 后結束的狀態(S')。

7cdc6a10-2da6-11ed-ba43-dac502259ad0.jpg

7cf95134-2da6-11ed-ba43-dac502259ad0.jpg

在 D4RL 基準套件的 antmaze-medium-diverse-v0 環境中的平均得分(最大值 =100)。即使在有限的離線轉換的情況下,JSRL 也可以改進。

基于視覺的機器人任務

由于維度的限制,在復雜的任務中使用離線數據特別困難,比如基于視覺的機器人操縱。連續控制動作空間和基于像素的狀態空間的高維度,給 IL+RL 方法帶來了學習良好策略所需的數據量方面的擴展挑戰。為了研究 JSRL 如何適應這種環境,我們重點研究了兩個困難的仿生機器人操縱任務:無差別抓?。矗e起任何物體)和實例抓取(即,舉起特定的目標物體)。

7d1396d4-2da6-11ed-ba43-dac502259ad0.jpg

一個仿生機械臂被放置在一張有各種類別物體的桌子前。當機械臂舉起任何物體時,對于無差別的抓取任務,會給予稀疏的獎勵。對于實例抓取任務,只有在抓取特定的目標物體時,才會給予稀疏的獎勵。

我們將 JSRL 與能夠擴展到復雜的基于視覺的機器人環境的方法進行比較,如 QT-Opt 和 AW-Opt。每種方法都可以獲得相同的成功演示的離線數據集,并被允許運行多達 10 萬步的在線微調。

在這些實驗中,我們使用行為克隆作為指導策略,并將 JSRL 與 QT-Opt 相結合進行微調。QT-Opt+JSRL 的組合比其他所有方法改進得更快,同時獲得了最高的成功率。

7d26259c-2da6-11ed-ba43-dac502259ad0.jpg

7d3ccca2-2da6-11ed-ba43-dac502259ad0.jpg

使用 2 千次成功演示,無差別和實例抓取環境的平均抓取成功率。

結語

我們提出了 JSRL,它是一種利用任何形式的先驗策略來改進初始化強化學習任務的探索的方法。我們的算法通過在預先存在的指導策略中滾動,創建了一個學習課程,然后由自我改進的探索策略跟進。探索策略的工作被大大簡化,因為它從更接近目標的狀態開始探索。隨著探索策略的改進,指導策略的影響也隨之減弱,從而形成一個完全有能力的強化學習策略。在未來,我們計劃將 JSRL 應用于 Sim2Real 等問題,并探索我們如何利用多種指導策略來訓練強化學習智能體。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4814

    瀏覽量

    103552
  • 智能體
    +關注

    關注

    1

    文章

    302

    瀏覽量

    11077
  • 強化學習
    +關注

    關注

    4

    文章

    269

    瀏覽量

    11597

原文標題:如何使用先驗策略有效地初始化強化學習?

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA Isaac Lab可用環境與強化學習腳本使用指南

    Lab 是個適用于機器人學習的開源模塊框架,其模塊高保真仿真適用于各種訓練環境,Isaac Lab 同時支持模仿學習(模仿人類)和
    的頭像 發表于 07-14 15:29 ?444次閱讀
    NVIDIA Isaac Lab可用環境與<b class='flag-5'>強化學習</b>腳本使用指南

    IM 系列設備過載保護機制下界面初始化中斷的底層邏輯與解決方案

    、過載保護機制與界面初始化的關聯基礎 IM 系列設備的過載保護機制是保障設備安全運行的核心功能,其通過傳感器實時采集設備運行參數,如電流、電壓、溫度、系統資源占用率等。旦這些參數超出預設閾值
    的頭像 發表于 06-27 09:58 ?72次閱讀

    三相無刷直流電機改進型脈寬調制策略

    摘要:研究了一種改進型無刷直流電機脈寬調制策略。在傳統的無刷直流電機脈寬調制技術的基礎上,針對調制期間開關管斷開時的電機繞組電流無法有效控制問題,研究了一種基于六開關電壓源型逆變器的四
    發表于 06-13 09:37

    使用MATLAB進行無監督學習

    無監督學習一種根據未標注數據進行推斷的機器學習方法。無監督學習旨在識別數據中隱藏的模式和關系,無需任何監督或關于結果的
    的頭像 發表于 05-16 14:48 ?671次閱讀
    使用MATLAB進行無監督<b class='flag-5'>學習</b>

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現

    本來轉自:DeepHubIMBA本文系統講解從基本強化學習方法到高級技術(如PPO、A3C、PlaNet等)的實現原理與編碼過程,旨在通過理論結合代碼的方式,構建對強化學習算法的全面理解。為確保內容
    的頭像 發表于 04-23 13:22 ?400次閱讀
    18個常用的<b class='flag-5'>強化學習</b>算法整理:從基礎<b class='flag-5'>方法</b>到高級模型的理論技術與代碼實現

    AFE031初始化的過程應該是什么?

    我現在工程中需要使用AFE031,在工作中遇到以下問題,請高手可以指點一二: 1:如果在不燒入任何軟件的時候,參考電壓RFE1和REF2 是否就已經存在?還是需要軟件對其進行正確的初始化后才可以
    發表于 01-15 06:54

    ADS1220初始化遇到的幾個疑問求解

    ? 我看了咱們的DEMO例程,每次讀取數據前都是重新初始化,我不是很明白這是什么意思?咱們這樣做有什么好處嗎?希望給解釋下謝謝 還有個問題:就是關于DRDY的。我使用查詢的方法判斷
    發表于 12-20 10:28

    OMAP5912多媒體處理器初始化參考指南

    電子發燒友網站提供《OMAP5912多媒體處理器初始化參考指南.pdf》資料免費下載
    發表于 12-17 16:20 ?0次下載
    OMAP5912多媒體處理器<b class='flag-5'>初始化</b>參考指南

    STM32F407 MCU使用SD NAND?不斷電初始化失效解決方案

    STM32F407微控制器單元(MCU)與SD NAND的結合提供了強大的存儲解決方案。然而,不斷電初始化失效問題可能會導致系統穩定性和數據完整性受損。我們將STM32F407與SD NAND集成時可能遇到的初始化問題,并提供專業的解決方案。
    的頭像 發表于 12-11 10:51 ?939次閱讀
    STM32F407 MCU使用SD NAND?不斷電<b class='flag-5'>初始化</b>失效解決方案

    請問LMX2595配置時如何進行初始化

    寄存器的值如何確定?是按照我后期希望配置的鎖定數據計算的寄存器值嗎?還是說有個固定的值初始化呢?感謝。
    發表于 11-12 06:51

    如何使用 PyTorch 進行強化學習

    強化學習(Reinforcement Learning, RL)是一種機器學習方法,它通過與環境的交互學習如何做出決策,以最大化累積獎勵。
    的頭像 發表于 11-05 17:34 ?1036次閱讀

    基于旋轉平移解耦框架的視覺慣性初始化方法

    精確和魯棒的初始化對于視覺慣性里程計(VIO)至關重要,因為不良的初始化會嚴重降低姿態精度。
    的頭像 發表于 11-01 10:16 ?967次閱讀
    基于旋轉平移解耦框架的視覺慣性<b class='flag-5'>初始化</b><b class='flag-5'>方法</b>

    TMS320C6000 McBSP初始化

    電子發燒友網站提供《TMS320C6000 McBSP初始化.pdf》資料免費下載
    發表于 10-26 10:10 ?1次下載
    TMS320C6000 McBSP<b class='flag-5'>初始化</b>

    視頻引擎初始化失敗怎么回事

    視頻引擎初始化失敗是個常見的技術問題,它可能由多種原因引起,包括軟件沖突、硬件問題、驅動程序問題、系統設置錯誤等。要解決這個問題,需要對可能的原因進行詳細的分析和診斷。 1. 軟件沖突 1.1
    的頭像 發表于 09-18 18:18 ?2841次閱讀

    Keil中變量不被初始化方法

    有些時候在我們的應用過程中要求變量有連續性,或者現場保留,例如Bootloader跳轉,某種原因的復位過程中我們有些關鍵變量不能被初始化,在不同的編譯環境下有不同的設置,本文就這個操作做總結,分別
    的頭像 發表于 08-30 11:47 ?1513次閱讀
    Keil中變量不被<b class='flag-5'>初始化</b><b class='flag-5'>方法</b>
    主站蜘蛛池模板: 激情综合婷婷丁香六月花 | 老司机狠狠k免费毛片 | 丰满寡妇一级毛片 | 中文字幕一区二区三区不卡 | 欧美日本视频一区 | 日本高清视频色www在线观看 | 性色视频免费 | 国产视频黄色 | 午夜精品久久久久久毛片 | 国产精品欧美精品国产主播 | 春宵福利网站 | 免费观看视频高清www | 亚洲天天| 天天插在线视频 | 欧美ol丝袜高跟秘书在线观看 | 免费啪视频在线观看免费的 | 成人免费看黄网站yyy456 | 免费爱爱视频 | 三浦理惠子中文在 | 久草在线免费资源站 | 国产乱码精品一区二区 | 乱说欲小说又粗又长 | 高清欧美一级在线观看 | 亚洲福利一区二区三区 | 综综综综合网 | 午夜激情影视 | 日韩三级在线免费观看 | 49pao强力在线高清基地 | 婷婷春色 | 国产一级毛片外aaaa | 日本黄色xxxx | www.免费| 成人夜色视频网站在线观看 | 黄色大片aa | 欧美高清另类 | 黄色福利站 | 欧洲妇女成人淫片aaa视频 | 四虎永久免费地址 | 奇米影视久久 | 日韩亚洲人成在线综合日本 | 波多野结衣在线视频观看 |