在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

在強化學習的表示空間中引入規劃能力的思路

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-09-06 08:46 ? 次閱讀

編者按:Microsoft Semantic Machines資深研究科學家、UC Berkeley計算機科學博士Jacob Andreas以控制問題為例,討論了在強化學習的表示空間中引入規劃能力的思路。

神經網絡參數智能體(例如Atari玩家智能體)看起來普遍缺乏規劃的能力。蒙特卡洛反應式智能體(例如原始深度Q學習者)明顯是個例子,甚至于具備一定隱藏狀態的智能體(比如NIPS的MemN2N論文)看上去也是這樣。盡管如此,類似規劃的行為已成功應用于其他深度模型,尤其是在文本生成上——集束解碼,乃至集束訓練,看上去對機器翻譯和圖像描述而言不可或缺。當然,對處理并非玩具級別的控制問題的人而言,真實的規劃問題無處不在。

任務和運動規劃是一個好例子。有一次我們需要求解一個持續控制問題,但是直接求解(通過通用控制策略或類似TrajOpt的過程)太難了。因此我們轉而嘗試高度簡化、手工指定的問題編碼——也許是丟棄了幾何信息的STRIPS表示。我們解決了(相對簡單的)STRIPS規劃問題,接著將其投影回運動規劃空間。該投影可能不對應可行的策略!(但我們想讓在任務空間中可行的策略在運動空間中盡量可行。)我們持續搜索計劃空間,直到找到在運動空間中同時奏效的解。

其實這不過是一個由粗到細的剪枝計劃——我們需要可以丟棄明顯不可行的規劃的低成本方法,這樣我們可以將全部計算資源集中到確實需要模擬的情形上。

如圖所示:

上圖中,r為表示函數,c為成本函數(我們可以將其視為用0-1表示可行性判斷的函數),k為“表示成本”。我們想要確保r在運動成本和任務成本上“接近同構”,也就是c(s1, s2) ≈ k(r(s1), r(s2))。

就STRIPS版本而言,假定我們手工給出r和k。不過,我們可以學習一個比STRIPS更好的求解任務和運動規劃問題的表示嗎?

從規劃樣本中學習

首先假定我們已經有了訓練數據,數據為成功的運動空間路點序列(s1, s2, …, s*)。那么我們可以直接最小化以下目標函數:

最容易的情形是表示空間(r的對應域)為?d;這時我們可以操作d以控制表示質量和搜索表示空間的成本之間的平衡。

問題:如果我們只觀測到常數c(如果只看到好的解,可能會出現這種情形),那就沒有壓力學習不那么微不足道的k。所以我們也需要不成功的嘗試。

解碼

給定訓練好的模型,我們通過以下步驟求解新實例:

從表示空間中取樣一個滿足r(s*) ≈ rn的成本加權路徑(r1,r2, ..., rn)。

將每個表示空間轉換r1→ r2映射到運動空間轉換s1→ s2,且滿足r(s2) ≈ r2。(如果r是可微的,那么這很容易表達為一個優化問題,否則需要麻煩一點表達為策略。)

重復上述過程,直到其中之一的運動空間解可行。

在涉及計算路徑的每一個步驟(不管是在r-空間還是在s-空間),我們都可以使用范圍廣泛的技術,包括基于優化的技術(TrajOpt),基于搜索的技術(RRT,不過大概不適用于高維情形),或者通過學習以目標狀態為參數的策略。

直接從任務反饋學習

如果我們沒有良好的軌跡可供學習,怎么辦?只需修改之前的上面兩步——從隨機初始值開始,展開包含預測的r和s序列,接著生成由預測值r和s構成的序列,然后將其視作監督,同樣更新k以反映觀測到的成本。

提示性搜索

到目前為止,我們假設可以直接暴力搜索表示空間,直到我們接近目標。沒有機制強制表示空間的接近程度同樣接近于運動空間(除了r可能帶來的平滑性)。我們可能想要增加額外的限制,如果根據定義ri距離rn不止3跳,那么||ri? rn||>||ri+1?rn||。這立刻提供了在表示空間中搜索的便利的啟發式算法

我們也可以在這一階段引入輔助信息——也許是以語言或視頻形式提供的意見。(接著我們需要學習另一個從意見空間到表示空間的映射。)

模塊化

在STRIPS領域,定義一些不同的原語(如“移動”、“抓取”)是很常見的做法。我們也許想給智能體提供類似的不同策略的離散清單,清單上的策略列出了轉換成本k1, k2, …。現在搜索問題同時牽涉(連續地)選擇一組點,和(離散地)選擇用于在點之間移動的成本函數/運動原語。這些原語對應的運動可能受限于配置空間中某個(手工選取)的子流形(比如,僅僅移動末端執行器,僅僅移動第一個關節)。

感謝Dylan Hadfield-Menell關于任務和運動規劃的討論。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4781

    瀏覽量

    101181
  • 機器翻譯
    +關注

    關注

    0

    文章

    139

    瀏覽量

    14947
  • 強化學習
    +關注

    關注

    4

    文章

    268

    瀏覽量

    11305

原文標題:強化學習表示空間中的規劃

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    反向強化學習思路

    強化學習的另一種策略(二)
    發表于 04-03 12:10

    深度強化學習實戰

    一:深度學習DeepLearning實戰時間地點:1 月 15日— 1 月18 日二:深度強化學習核心技術實戰時間地點: 1 月 27 日— 1 月30 日(第一天報到 授課三天;提前環境部署 電腦
    發表于 01-10 13:42

    基于強化學習的飛行自動駕駛儀設計

    針對強化學習連續狀態連續動作空間中的維度災難問題,利用BP神經網絡算法作為值函數逼近策略,設計了自動駕駛儀。并引入動作池機制,有效避免飛行仿真中危險動作的發生。首先
    發表于 06-25 16:27 ?27次下載
    基于<b class='flag-5'>強化學習</b>的飛行自動駕駛儀設計

    強化學習RoboCup帶球任務中的應用劉飛

    強化學習RoboCup帶球任務中的應用_劉飛
    發表于 03-14 08:00 ?0次下載

    將深度學習強化學習相結合的深度強化學習DRL

    深度強化學習DRL自提出以來, 已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發的AlphaGo,將深度強化學習DRL成推上新的熱點和高度,成為人工智能歷史上一個新的里程碑。因此,深
    發表于 06-29 18:36 ?2.8w次閱讀

    基于分層強化學習的多Agent路徑規劃

    策略可獲得的最大回報;其次,利用分層強化學習方法的無環境模型學習以及局部更新能力將策略更新過程限制規模較小的局部空間或維度較低的高層
    發表于 12-27 14:32 ?0次下載
    基于分層<b class='flag-5'>強化學習</b>的多Agent路徑<b class='flag-5'>規劃</b>

    人工智能機器學習強化學習

    強化學習是智能系統從環境到行為映射的學習,以使獎勵信號(強化信號)函數值最大,強化學習不同于連接主義學習中的監督
    發表于 05-30 06:53 ?1437次閱讀

    強化學習自動駕駛的應用

    自動駕駛汽車首先是人工智能問題,而強化學習是機器學習的一個重要分支,是多學科多領域交叉的一個產物。今天人工智能頭條給大家介紹強化學習自動駕駛的一個應用案例,無需3D地圖也無需規則,讓
    的頭像 發表于 07-10 09:00 ?5034次閱讀
    <b class='flag-5'>強化學習</b><b class='flag-5'>在</b>自動駕駛的應用

    什么是強化學習?純強化學習有意義嗎?強化學習有什么的致命缺陷?

    強化學習是人工智能基本的子領域之一,強化學習的框架中,智能體通過與環境互動,來學習采取何種動作能使其在給定環境中的長期獎勵最大化,就像在上述的棋盤游戲寓言中,你通過與棋盤的互動來
    的頭像 發表于 07-15 10:56 ?1.8w次閱讀
    什么是<b class='flag-5'>強化學習</b>?純<b class='flag-5'>強化學習</b>有意義嗎?<b class='flag-5'>強化學習</b>有什么的致命缺陷?

    量化深度強化學習算法的泛化能力

    OpenAI 近期發布了一個新的訓練環境 CoinRun,它提供了一個度量智能體將其學習經驗活學活用到新情況的能力指標,而且還可以解決一項長期存在于強化學習中的疑難問題——即使是廣受贊譽的強化
    的頭像 發表于 01-01 09:22 ?2445次閱讀
    量化深度<b class='flag-5'>強化學習</b>算法的泛化<b class='flag-5'>能力</b>

    一文詳談機器學習強化學習

    強化學習屬于機器學習中的一個子集,它使代理能夠理解特定環境中執行特定操作的相應結果。目前,相當一部分機器人就在使用強化學習掌握種種新能力
    發表于 11-06 15:33 ?1784次閱讀

    83篇文獻、萬字總結強化學習之路

    深度強化學習是深度學習強化學習相結合的產物,它集成了深度學習視覺等感知問題上強大的理解能力
    的頭像 發表于 12-10 18:32 ?626次閱讀

    強化學習智能對話上的應用介紹

    本文主要介紹深度強化學習在任務型對話上的應用,兩者的結合點主要是將深度強化學習應用于任務型對話的策略學習上來源:騰訊技術工程微信號
    的頭像 發表于 12-10 19:02 ?1088次閱讀

    《自動化學報》—多Agent深度強化學習綜述

    突破.由于融合了深度學習強大的表征能力強化學習有效的策略搜索能力,深度強化學習已經成為實現人工智能頗有前景的
    發表于 01-18 10:08 ?1662次閱讀
    《自動<b class='flag-5'>化學</b>報》—多Agent深度<b class='flag-5'>強化學習</b>綜述

    強化學習與智能駕駛決策規劃

    一套泛化能力強的決策規劃機制是智能駕駛目前面臨的難點之一。強化學習是一種從經驗中總結的學習方式,并從長遠的角度出發,尋找解決問題的最優方案。近些年來,
    的頭像 發表于 02-08 14:05 ?1934次閱讀
    主站蜘蛛池模板: 五月亭亭免费高清在线 | 美女黄色毛片免费看 | 影视精品网站入口 | 亚洲狠狠97婷婷综合久久久久 | 狠久久| 无内丝袜透明在线播放 | 狠狠噜噜 | 中国又粗又大又爽的毛片 | 黄色午夜网站 | 美女视频毛片 | 永久黄网站色视频免费 | 成人影院免费观看 | 97成人资源 | 男女一进一出无遮挡黄 | 李老汉的性生生活2 | 永久免费在线观看视频 | 国产美女视频免费 | 在线观看深夜观看网站免费 | 俺去啦网婷婷 | 天堂社区在线视频 | 色秀视频免费网站在线观看 | 天天射综合 | 亚洲成人免费在线观看 | 伊人久久大香线蕉资源 | 女性一级全黄生活片免费看 | 亚洲欧洲综合网 | 免费午夜视频在线观看 | 毛片三级在线观看 | 伊人久久大香线蕉资源 | 久热国产精品 | 天天干天天操天天透 | 亚洲成人免费在线 | 亚洲二区视频 | 一级毛片视屏 | 天天色天天舔 | 视频黄色免费 | 黑人40厘米全进去xxxx猛交 | 亚洲午夜综合网 | 在线日本人观看成本人视频 | 欧美三级免费观看 | 美女网站在线观看视频18 |