在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用非參數(shù)方法提高強(qiáng)化學(xué)習(xí)的樣本效率

星星科技指導(dǎo)員 ? 來源:NVIDIA ? 作者:Samuele Tosatto ? 2022-04-28 14:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人工智能和自主學(xué)習(xí)的最新發(fā)展表明,在棋盤游戲和電腦游戲等任務(wù)中取得了令人印象深刻的成果。然而,學(xué)習(xí)技術(shù)的適用性主要局限于模擬環(huán)境。

這種不適用于實際場景的主要原因之一是樣本效率低下,無法保證最先進(jìn)的強(qiáng)化學(xué)習(xí)的安全運(yùn)行。在強(qiáng)化學(xué)習(xí)理論中,你想根據(jù)一個特定的指標(biāo)來改善一個代理的行為。為了改進(jìn)這個度量,代理可以與環(huán)境交互,從中收集觀察結(jié)果和獎勵。可以用兩種不同的方式進(jìn)行改進(jìn): 論政策 和 非保險單 。

在政策性案例中,必須通過代理人與環(huán)境的直接互動來實現(xiàn)改進(jìn)。這種改進(jìn)在數(shù)學(xué)上很簡單,但由于不允許重復(fù)使用樣本,因此阻礙了樣本效率。當(dāng)代理行為得到改善時,代理必須與環(huán)境重新交互以生成新的 on 策略樣本。例如,在學(xué)習(xí)的早期階段, agentMIG 不適合與物理環(huán)境直接交互,因為它的行為是隨機(jī)的。在模擬任務(wù)中,樣本的可用性是無限的,有害行為的應(yīng)用沒有危險。然而,對于實際應(yīng)用,這些問題是嚴(yán)重的。

在關(guān)閉策略的情況下,可以通過與其他代理完成的環(huán)境的交互來改進(jìn)代理的行為。這允許樣本重用和更安全的交互,因為與環(huán)境交互的代理可以是專家。例如,人類可以通過移動機(jī)械臂來采集樣本。

政策外改善的缺點(diǎn)是難以獲得可靠的估計。在目前的技術(shù)狀況下,所提出的技術(shù)要么具有高偏差,要么具有高方差。此外,有些技術(shù)對必須如何與環(huán)境進(jìn)行交互有著具體而強(qiáng)烈的要求。

在這篇文章中,我討論了非參數(shù)非政策梯度( NOPG ),它具有更好的偏差方差權(quán)衡,并且對如何生成非政策樣本沒有什么要求。 NOPG 是由 Darmstadt 的智能自治系統(tǒng)實驗室開發(fā)的,已經(jīng)被證明可以有效地解決一些經(jīng)典的控制問題,并克服了目前最先進(jìn)的非策略梯度估計中存在的一些問題。有關(guān)詳細(xì)信息,請參見 非參數(shù)的政策外政策梯度 。

強(qiáng)化學(xué)習(xí)與政策外梯度

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個子領(lǐng)域,其中一個代理(我在這篇文章中稱之為策略)與環(huán)境交互并觀察環(huán)境的狀態(tài)和獎勵信號。代理人的目標(biāo)是使累計折扣報酬最大化,如下式所示:

latex.php?latex=J%5E%5Cpi+%3D+%5Cmathbb%7BE%7D%5Cleft%5B%5Csum_t+%5Cgamma%5Etr_t%5Cright%5D&bg=ffffff&fg=000&s=0

代理通常由一組參數(shù)來參數(shù)化使得它能夠利用梯度優(yōu)化使強(qiáng)化學(xué)習(xí)目標(biāo)最大化。坡度關(guān)于策略參數(shù)通常是未知的,并且很難以分析形式獲得。因此,你不得不用樣本來近似它。利用非策略樣本估計梯度主要有兩種方法:半梯度法和重要性抽樣法。

半梯度

這些方法在梯度展開中減少了一個項,這導(dǎo)致了估計量的偏差。理論上,這個偏差項仍然足夠低,足以保證梯度收斂到正確的解。然而,當(dāng)引入其他近似源(例如有限樣本或臨界近似)時,不能保證收斂到最優(yōu)策略。在實踐中,經(jīng)常會觀察到性能不佳。

重要性抽樣

這些方法都是基于重要性抽樣校正的。這種估計通常會受到高方差的影響,并且這種方差在強(qiáng)化學(xué)習(xí)環(huán)境中會被放大,因為它會隨著情節(jié)的長度而倍增。涉及重要性抽樣的技術(shù)需要已知的隨機(jī)策略和基于軌跡的數(shù)據(jù)(與環(huán)境的順序交互)。因此,在這種情況下,不允許不完整的數(shù)據(jù)或基于人的交互。

非參數(shù)非政策梯度估計

強(qiáng)化學(xué)習(xí)理論的一個重要組成部分是 Bellman 方程。 Bellman 方程遞歸地定義了以下值函數(shù):

pYYBAGJqL7iAdB5pAAAdEG7Z69M420.png

求梯度的一種方法是用非參數(shù)技術(shù)近似 Bellman 方程,并進(jìn)行解析求解。具體來說,可以構(gòu)造一個非參數(shù)的報酬函數(shù)和轉(zhuǎn)移函數(shù)模型。

通過增加采樣數(shù)和減少內(nèi)核帶寬,您將向右收斂到無偏解。更準(zhǔn)確地說,當(dāng)方差縮小到零時,這個估計量是一致的。

非參數(shù) Bellman 方程的求解涉及到一組線性方程組的求解,該方程組可以通過矩陣反演或共軛梯度等近似迭代方法獲得。這兩種方法都是重線性代數(shù)運(yùn)算,因此適合與 GPUs 并行計算。

求解非參數(shù) Bellman 方程后,梯度的計算變得非常簡單,可以使用自動微分工具,如 TensorFlow 或 PyTorch 來獲得。這些工具具有易于使用的 GPU 支持,與以前僅使用 CPU 的實現(xiàn)相比,這些工具已經(jīng)被證明實現(xiàn)了相當(dāng)大的加速。

特別是, IASL 團(tuán)隊在配備了四個 NVIDIA V100 GPUs 的 NVIDIA DGX 站 上測試了 TensorFlow 和 PyTorch 兩種算法。由于 NVIDIA DGX 站提供的 20 個 NVIDIA 核有助于利用多處理技術(shù)進(jìn)行多次評估,因此該機(jī)器非常適合于實證評估。有關(guān)實現(xiàn)代碼的更多信息,請參見 非參數(shù)政策外政策梯度 。

實證分析

為了評估 NOPG 相對于經(jīng)典的非政策梯度方法的性能,例如深度確定性策略梯度,或具有重要抽樣校正的 G-POMDP ,團(tuán)隊選擇了一些經(jīng)典的低維控制任務(wù):

線性二次型調(diào)節(jié)器

OpenAI 健身房秋千

手推車和電桿( Quanser 平臺)

OpenAI 健身山地車

我的團(tuán)隊的分析表明,與最先進(jìn)的技術(shù)相比,這種方法更具優(yōu)勢。在表示為 NOPG-S 和 NOPG-D 的圖中,我們分別展示了隨機(jī)策略和確定性策略的算法:

PWIS (路徑重要性抽樣)

DPG ( deterministicpolicy gradient ),一種半梯度方法

DDPG ( deep deterministicy policy gradient ),在其經(jīng)典的在線和離線模式下

該團(tuán)隊使用 OpenAI 基線 對在線版本的 DDPG 進(jìn)行編碼。

坡度的質(zhì)量

pYYBAGJqMBiAEGWHAAEqugswRAs005.png

圖 1 LQR 任務(wù)中的梯度方向。與 DPG 技術(shù)相比,方差是有利的。

圖 1 描述了參數(shù)空間中的漸變方向。真梯度( TG )是理想的梯度方向。當(dāng) PWIS 的方差較大時, DPG 表現(xiàn)出較大的偏差,兩種方法都無法優(yōu)化策略。相反,這種同時具有隨機(jī)和確定性策略的方法顯示出更好的偏差/方差權(quán)衡,并允許更好和一致的策略改進(jìn)。

學(xué)習(xí)曲線

poYBAGJqMPSAC2JPAAED649PFzI321.png

圖 2 該算法( NOPG-D , NOPG-S )比其他基線具有更好的采樣效率。在實際系統(tǒng)上,驗證了所學(xué)習(xí)策略對車輛穩(wěn)定性的有效性。

圖 2 描述了算法關(guān)于一些經(jīng)典基線的學(xué)習(xí)曲線。該算法使用較少的樣本,取得了較好的效果。 cartpole 的最終策略已經(jīng)在一個真實的 cartpole 上進(jìn)行了測試,如右圖所示。

從人類示范中學(xué)習(xí)

該算法可以處理基于人類的數(shù)據(jù),而重要性抽樣技術(shù)并不直接適用。在這個實驗中,研究小組提供了次優(yōu)的,人類演示的山地車任務(wù)軌跡。

poYBAGJqMA2ATCWjAADv75ksEa8838.png

圖3 在左邊,提供了關(guān)于演示次數(shù)的算法學(xué)習(xí)曲線。該圖附有 95% 的置信區(qū)間。右邊是一個人類演示和隨后的政策在空間狀態(tài)下的表現(xiàn)的例子。

左邊的圖 3 顯示, NOPG 可以在只有兩個次優(yōu)的演示或軌跡的情況下獲得一個有效的策略。然而,更大的數(shù)字有助于它學(xué)習(xí)稍微好一點(diǎn)的政策。右邊是一個人類演示的例子(橙色)和策略優(yōu)化的結(jié)果(綠色)。人體在位置和速度空間的演示是次優(yōu)的,因為它需要更多的步驟來達(dá)到目標(biāo)位置。即使人類的演示是次優(yōu)的,算法也能找到一個接近最優(yōu)的策略。

今后的工作

博世人工智能中心 的一個應(yīng)用是節(jié)流閥控制器。節(jié)流閥是用來調(diào)節(jié)流體或氣體流量的技術(shù)裝置。由于其復(fù)雜的動力學(xué)和物理約束,該裝置的控制具有挑戰(zhàn)性。

由于參數(shù)設(shè)置困難,設(shè)計最先進(jìn)的控制器(如 PID 控制器)非常耗時。強(qiáng)化學(xué)習(xí)似乎特別適合這種應(yīng)用。然而,政策外數(shù)據(jù)的可用性加上系統(tǒng)的低維性(系統(tǒng)可以用襟翼的角度和角速度來描述),使得它特別適合于 NOPG 方法。

結(jié)論

在這篇文章中,您研究了非政策梯度估計的問題。最先進(jìn)的技術(shù),如半梯度法和重要性抽樣法,往往不能提供一個可靠的估計。我討論了 NOPG ,它是在達(dá)姆施塔特的 智能自治系統(tǒng)( IAS ) 實驗室開發(fā)的。

在經(jīng)典和低維任務(wù)(如 LQR 、擺起擺錘和 cartopole )上, NOPG 方法是樣本有效的,與基線相比安全(也就是說,它可以向人類專家學(xué)習(xí))。雖然重要性抽樣不適用,但該方法也能從次優(yōu)的人類演示數(shù)據(jù)中學(xué)習(xí)。然而,由于非參數(shù)方法不適用于高維問題,該算法僅限于低維任務(wù)。您可以研究深度學(xué)習(xí)技術(shù)的適用性,以允許降維,以及 Bellman 方程的不同近似值的使用,從而克服非參數(shù)技術(shù)的問題。

關(guān)于作者

Samuele Tosatto 是達(dá)姆施塔特理工大學(xué)的博士生。他的主要研究方向是將強(qiáng)化學(xué)習(xí)應(yīng)用于現(xiàn)實世界的機(jī)器人技術(shù)。他認(rèn)為,獲得更有效的學(xué)習(xí)算法對于縮短強(qiáng)化學(xué)習(xí)與實際機(jī)器人技術(shù)之間的差距至關(guān)重要。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 控制器
    +關(guān)注

    關(guān)注

    114

    文章

    17088

    瀏覽量

    184052
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    29706

    瀏覽量

    212667
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5560

    瀏覽量

    122762
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    18個常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級模型的理論技術(shù)與代碼實現(xiàn)

    本來轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級技術(shù)(如PPO、A3C、PlaNet等)的實現(xiàn)原理與編碼過程,旨在通過理論結(jié)合代碼的方式,構(gòu)建對強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?396次閱讀
    18個常用的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法整理:從基礎(chǔ)<b class='flag-5'>方法</b>到高級模型的理論技術(shù)與代碼實現(xiàn)

    嵌入式AI技術(shù)之深度學(xué)習(xí):數(shù)據(jù)樣本預(yù)處理過程中使用合適的特征變換對深度學(xué)習(xí)的意義

    和模擬一切規(guī)律,但實際上,這個過程效率非常低,需要消耗大量的存儲空間描述網(wǎng)絡(luò)的參數(shù),并且需要大量的數(shù)據(jù)樣本覆蓋規(guī)律可能涉及到的情景。 優(yōu)秀的數(shù)學(xué)家們在過往的研究中,已經(jīng)發(fā)現(xiàn)和總結(jié)出了一些描述規(guī)律的
    的頭像 發(fā)表于 04-02 18:21 ?871次閱讀

    詳解RAD端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

    受限于算力和數(shù)據(jù),大語言模型預(yù)訓(xùn)練的 scalinglaw 已經(jīng)趨近于極限。DeepSeekR1/OpenAl01通過強(qiáng)化學(xué)習(xí)后訓(xùn)練涌現(xiàn)了強(qiáng)大的推理能力,掀起新一輪技術(shù)革新。
    的頭像 發(fā)表于 02-25 14:06 ?586次閱讀
    詳解RAD端到端<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>后訓(xùn)練范式

    高強(qiáng)度鋼點(diǎn)焊技術(shù)研究進(jìn)展與應(yīng)用前景

    點(diǎn)焊是一種利用電極將工件局部加熱至熔化狀態(tài),通過加壓使金屬之間形成牢固連接的焊接方法。對于高強(qiáng)度鋼而言,點(diǎn)焊技術(shù)需要解決的關(guān)鍵問題包括:如何保證焊接接頭的強(qiáng)度和韌性,減少焊接缺陷,提高生產(chǎn)效率
    的頭像 發(fā)表于 02-20 08:46 ?435次閱讀
    <b class='flag-5'>高強(qiáng)</b>度鋼點(diǎn)焊技術(shù)研究進(jìn)展與應(yīng)用前景

    數(shù)字化轉(zhuǎn)型背景下的設(shè)備管理系統(tǒng)進(jìn)化論

    從臺賬管理到智能中樞,設(shè)備管理技術(shù)演進(jìn)史。數(shù)字化轉(zhuǎn)型戰(zhàn)略深度綁定。實時感知網(wǎng)絡(luò),振動監(jiān)測系統(tǒng),效率提高。5G+TSN,降低運(yùn)維成本。強(qiáng)化學(xué)習(xí)參數(shù)優(yōu)化。數(shù)字孿生,優(yōu)化運(yùn)維
    的頭像 發(fā)表于 02-10 10:07 ?346次閱讀
    數(shù)字化轉(zhuǎn)型背景下的設(shè)備管理系統(tǒng)進(jìn)化論

    如何提高SMT生產(chǎn)效率

    在競爭激烈的電子制造領(lǐng)域,SMT生產(chǎn)線的效率直接影響到企業(yè)的競爭力。 1. 生產(chǎn)流程優(yōu)化 1.1 精益生產(chǎn) 精益生產(chǎn)是一種旨在減少浪費(fèi)、提高效率的生產(chǎn)管理方法。通過識別和消除生產(chǎn)過程中的
    的頭像 發(fā)表于 01-10 16:28 ?1494次閱讀

    如何提高半導(dǎo)體設(shè)備防震基座的制造效率

    如何提高半導(dǎo)體設(shè)備防震基座的制造效率?-江蘇泊蘇系統(tǒng)集成有限公司提高半導(dǎo)體設(shè)備防震基座的制造效率是一個綜合性的過程,需要從多個方面進(jìn)行優(yōu)化和改進(jìn),以下是一些可行的
    的頭像 發(fā)表于 01-08 15:06 ?448次閱讀
    如何<b class='flag-5'>提高</b>半導(dǎo)體設(shè)備防震基座的制造<b class='flag-5'>效率</b>?

    怎樣提高三坐標(biāo)測量機(jī)的測量效率

    提高三坐標(biāo)測量機(jī)的測量效率是許多制造和質(zhì)量控制領(lǐng)域中的一個關(guān)鍵問題。三坐標(biāo)測量機(jī)(CMM)是一種精密的測量設(shè)備,用于檢測零件的幾何尺寸和形狀。以下是一些提高三坐標(biāo)測量機(jī)測量效率
    的頭像 發(fā)表于 12-19 10:20 ?1071次閱讀

    螞蟻集團(tuán)收購邊塞科技,吳翼出任強(qiáng)化學(xué)習(xí)實驗室首席科學(xué)家

    近日,專注于模型賽道的初創(chuàng)企業(yè)邊塞科技宣布被螞蟻集團(tuán)收購。據(jù)悉,此次交易完成后,邊塞科技將保持獨(dú)立運(yùn)營,而原投資人已全部退出。 與此同時,螞蟻集團(tuán)近期宣布成立強(qiáng)化學(xué)習(xí)實驗室,旨在推動大模型強(qiáng)化學(xué)習(xí)
    的頭像 發(fā)表于 11-22 11:14 ?1552次閱讀

    如何提高CNC加工效率

    程是指刀具在沒有切削材料的情況下移動的距離。通過優(yōu)化刀具路徑,減少不必要的移動,可以顯著提高加工效率。使用高級的CAM軟件可以自動生成更高效的刀具路徑。 1.2 優(yōu)化切削參數(shù) 切削參數(shù)
    的頭像 發(fā)表于 11-12 09:18 ?1951次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過與環(huán)境的交互來學(xué)習(xí)如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源機(jī)器學(xué)習(xí)庫,
    的頭像 發(fā)表于 11-05 17:34 ?1017次閱讀

    Pytorch深度學(xué)習(xí)訓(xùn)練的方法

    掌握這 17 種方法,最省力的方式,加速你的 Pytorch 深度學(xué)習(xí)訓(xùn)練。
    的頭像 發(fā)表于 10-28 14:05 ?646次閱讀
    Pytorch深度<b class='flag-5'>學(xué)習(xí)</b>訓(xùn)練的<b class='flag-5'>方法</b>

    MES系統(tǒng)如何提高生產(chǎn)效率

    在當(dāng)今競爭激烈的制造行業(yè)中,提高生產(chǎn)效率是企業(yè)生存和發(fā)展的關(guān)鍵。MES系統(tǒng)作為一種先進(jìn)的制造管理工具,已經(jīng)成為許多制造企業(yè)提高生產(chǎn)效率的重要手段。 1. 實時監(jiān)控與數(shù)據(jù)收集 MES系統(tǒng)
    的頭像 發(fā)表于 10-27 09:16 ?879次閱讀

    谷歌AlphaChip強(qiáng)化學(xué)習(xí)工具發(fā)布,聯(lián)發(fā)科天璣芯片率先采用

    近日,谷歌在芯片設(shè)計領(lǐng)域取得了重要突破,詳細(xì)介紹了其用于芯片設(shè)計布局的強(qiáng)化學(xué)習(xí)方法,并將該模型命名為“AlphaChip”。據(jù)悉,AlphaChip有望顯著加速芯片布局規(guī)劃的設(shè)計流程,并幫助芯片在性能、功耗和面積方面實現(xiàn)更優(yōu)表現(xiàn)。
    的頭像 發(fā)表于 09-30 16:16 ?693次閱讀

    測徑儀:提升低合金高強(qiáng)度鋼軋制品質(zhì)的關(guān)鍵設(shè)備

    的正常運(yùn)行和檢測精度。 建立備件庫存管理制度,確保在設(shè)備出現(xiàn)故障時能夠及時更換損壞的部件,減少停機(jī)時間,提高生產(chǎn)效率。 結(jié)語 要想實現(xiàn)高品質(zhì)低合金高強(qiáng)度鋼軋制,需要從多個方面入手,包括采用高精度檢測設(shè)備
    發(fā)表于 09-26 16:50
    主站蜘蛛池模板: 久久久久国产成人精品亚洲午夜 | 成人av电影在线 | 在线 你懂| 六月婷婷在线视频 | 五月婷婷色丁香 | 一级特黄aa毛片免费观看 | 色 ed2k| 四虎影院最新 | 四虎网址在线 | 日日摸人人看97人人澡 | 日本黄色激情视频 | 韩国午夜精品理论片西瓜 | 天天操天天操天天操香蕉 | 尤物久久99热国产综合 | 一级特级aaa毛片 | 白嫩美女在线啪视频观看 | 97天天做天天爱夜夜爽 | 成人在色线视频在线观看免费大全 | 好吊色7777sao在线视频观看 | 四虎影业| 夜夜爽一区二区三区精品 | 美女又黄又免费的视频 | 2018国产大陆天天弄 | 国产一卡2卡3卡四卡精品网站 | 黄色片啪啪 | 国产伦精品一区二区三区高清 | 三级网站在线免费观看 | 欧美视频区 | 日韩一级片视频 | 狠狠干狠狠干 | 深爱激情五月网 | 色狠狠综合 | 亚洲婷婷综合中文字幕第一页 | bt天堂在线www中文在线 | 天堂资源最新版在线www | 久久777国产线看观看精品卜 | 伊人黄色| 国产美女精品一区二区三区 | www天堂网 | 欧洲精品码一区二区三区免费看 | 巨乳色在线观看 |