在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

強化學習究竟是什么?它與機器學習技術有什么聯系?

8g3K_AI_Thinker ? 來源:未知 ? 作者:李倩 ? 2018-04-15 10:32 ? 次閱讀

強化學習在當今世界可謂是日漸流行,讓我們來看一看關于強化學習你不得不知道的5件事。

強化學習是當今社會最熱門的研究課題之一,而且其熱度正與日俱增。讓我們一起來學習下關于強化學習的5個有用知識點。

▌1.強化學習究竟是什么?它與機器學習技術有什么聯系?

強化學習(Reinforcement Learning)是機器學習的一個分支,它的原理是:在交互環境中,智能體利用自身的經驗和反饋,通過試驗和錯誤經驗來進行學習。

有監督學習和強化學習都會明確指出輸入和輸出之間的映射關系,但不同點在于,有監督學習給智能體的反饋是執行正確任務的行為集合,而強化學習反饋的則將獎勵和懲罰轉為積極和消極行為的信號進行反饋。

對于無監督學習,強化學習的目標顯得更加難以實現。無監督學習的目標僅僅是找到數據之間的相似和不同,而強化學習的目標卻是找到一個能最大化智能體總累計獎勵的模型。

強化學習模型中涉及的基本思想和元素見下圖:

▌2.如何確定一個基本的強化學習問題?

描述強化學習問題的幾個關鍵元素是:

環境:智能體所處的物理世界;

狀態:智能體目前的狀態;

獎勵:從環境中得到的反饋;

方案:將智能體狀態映射到行動的方法;

價值:智能體在特定狀態下執行某項行動獲取未來的獎勵。

一些游戲可以幫助我們很好的理解強化學習問題。以PacMan游戲為例:在這個游戲中,智能體(PacMan)的目標就是在避免與鬼相遇的情況下,盡量在網格中吃到更多的豆子。網格世界就是智能體的交互環境,如果PacMan吃到了豆子就接受獎勵,如果被鬼殺死了(游戲結束)就接受懲罰。在該游戲中,“狀態”就是PacMan在網格中的各個位置,而總累計獎勵就是贏得比賽的勝利。

為了得到最優的方案,智能體既需要探索新的狀態,又要同時盡量取得最多的獎勵。這就是所謂的“探測與開采的權衡”問題。

馬爾可夫決策過程(MDP)是所有強化學習環境的數學框架,幾乎所有強化學習問題都可以使用MDP來搭建模型。一個MDP過程包含一個環境集合(S),每個狀態中包含一個可能的行動集合(A),還包含一個實值獎勵函數R(s)和一個轉移矩陣P(s',s | a)。不過,現實世界的環境中,環境動態的先驗信息可能是未知的,在這種情況下,運用“不理解環境強化學習”算法(model-free RL)去進行預測會更加方便、好用。

Q-learning模型就是一種應用廣泛的不理解環境強化學習模型,因此可以用它來模擬PacMan智能體。Q-learning模型的規則是,在狀態S下執行行動a,不停更新Q值,而迭代更新變量值算法就是該算法的核心。

Figure 2: Reinforcement Learning Update Rule

這是利用一個深度強化學習實現PacMan游戲的視頻

https://www.youtube.com/watch?v=QilHGSYbjDQ

▌3.最常用的深度學習算法原理是什么?

Q-learning和SARSA是兩種最常見的不理解環境強化學習算法,這兩者的探索原理不同,但是開發原理是相似的。Q-learning是一種離線學習算法,智能體需要從另一項方案中學習到行為a*的價值;SARSA則是一種在線學習算法,智能體可從現有方案指定的當前行為來學習價值。這兩種方法都很容易實現,但缺乏一般性,因為它們無法預估未知狀態的值。

一些更加高級的算法可以克服這個問題,如:Deep Q-Networks(其原理為利用神經網絡來估計Q值)算法,但DQN算法只能應用在離散的低維動作空間中;DDPG(深度確定性策略梯度算法)則是一個理解環境的、在線的算法,它基于行動者-評論家(Actor-Critic,AC)框架,可用于解決連續動作空間上的深度強化學習問題。

▌4.強化學習有哪些實際應用?

由于強化學習需要大量的數據,因此它最適用于模擬數據領域,如游戲、機器人等。

強化學習廣泛應用于設計游戲中的AI玩家。AlphaGo Zero在傳統中國游戲圍棋中打敗了世界冠軍,這是AI第一次擊敗現實中的世界冠軍。AI還在ATARI游戲、西洋雙陸棋等游戲中有出色的表現。

機器人和工業自動化領域中,深度學習也被廣泛應用,機器人能夠為自己搭建一個高效的自適應控制系統,從而學習自己的經驗和行為。DeepMind關于“帶有異步策略更新的機器人操縱的深度強化學習”就是一個很好的例子。

觀看這個有趣的演示視頻video(https://www.youtube.com/watch?v=ZhsEKTo7V04&t=48s)

強化學習的其他應用包括:文本摘要引擎、從用戶交互中學習并隨時間改進的(文本、語音)對話代理、醫療保健領域的最優治療政策、基于強化學習的在線股票交易代理。

▌5.我該如何開始強化學習?

讀者可以從以下鏈接中了解更多關于強化學習的基本概念:

《Reinforcement Learning-An Introduction》——本書由強化學習之父Richard Sutton和他的博士生導師Andrew Barto共同撰寫。該書的電子版以在http://incompleteideas.net/book/the-book-2nd.html找到。

由David Silver提供的Teaching material視頻課程可供讀者很好的了解強化學習的基礎課程:http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

Pieter Abbeel和John Schulman的視頻technical tutoria也是不錯的學習資料:http://people.eecs.berkeley.edu/~pabbeel/nips-tutorial-policy-optimization-Schulman-Abbeel.pdf

開始構建和測試RL代理

若想要開始學習搭建和測試強化學習的智能體,Andrej Karpathy的博客This blog中詳細講述了如何用原始像素的策略梯度來訓練神經網絡ATARI Pong智能體,并提供了130行Python代碼來幫助你建立你的第一個強化學習智能體:http://karpathy.github.io/2016/05/31/rl/

DeepMind Lab是一個開源的3D游戲式平臺,它為機遇智能體可以的人工智能研究提供豐富的模擬環境。

Project Malmo是另一個提供基礎AI研究的在線平臺:https://www.microsoft.com/en-us/research/project/project-malmo/

OpenAI gym則是一個用于構建和比較強化學習算法的工具包:https://gym.openai.com/

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8438

    瀏覽量

    133087
  • 強化學習
    +關注

    關注

    4

    文章

    268

    瀏覽量

    11301

原文標題:關于強化學習你不得不知道的5件事

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    反向強化學習的思路

    強化學習的另一種策略(二)
    發表于 04-03 12:10

    圖解:IGBT究竟是什么?

    圖解:IGBT究竟是什么? IGBT究竟是什么?
    發表于 08-10 08:01

    深度強化學習實戰

    一:深度學習DeepLearning實戰時間地點:1 月 15日— 1 月18 日二:深度強化學習核心技術實戰時間地點: 1 月 27 日— 1 月30 日(第一天報到 授課三天;提前環境部署 電腦
    發表于 01-10 13:42

    電感飽和究竟是什么

    電感飽和究竟是什么
    發表于 03-11 08:13

    分貝究竟是什么?如何去理解它?

    分貝究竟是什么?如何去理解它?
    發表于 05-31 07:05

    那uMCP究竟是什么?它與eMCP什么聯系

    那uMCP究竟是什么?它與eMCP什么聯系?為何eMCP在中低端市場仍占據優勢?那么uMCP5會迅速取代eMCP嗎?
    發表于 06-18 07:35

    retain,copy與assign究竟是什么區別呢

    retain,copy與assign究竟是什么區別呢?
    發表于 09-30 09:25

    將深度學習強化學習相結合的深度強化學習DRL

    深度強化學習DRL自提出以來, 已在理論和應用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學習DRL研發的AlphaGo,將深度強化學習DRL成推上新的熱點和高度,成為人工智能歷史上一個新的里程碑。因此,深
    發表于 06-29 18:36 ?2.8w次閱讀

    強化學習新方法,機器究竟是怎么學習新動作的呢?

    強化學習方法教機器人(模擬器里的智能體),能學會的動作花樣繁多,細致到拿東西、豪放到奔跑都能搞定,還可以給機器人設置一個明確的目的。但是,總難免上演一些羞恥或驚喜play。
    的頭像 發表于 04-13 11:00 ?9823次閱讀

    人工智能機器學習強化學習

    強化學習是智能系統從環境到行為映射的學習,以使獎勵信號(強化信號)函數值最大,強化學習不同于連接主義學習中的監督
    發表于 05-30 06:53 ?1437次閱讀

    什么是強化學習?純強化學習有意義嗎?強化學習什么的致命缺陷?

    強化學習是人工智能基本的子領域之一,在強化學習的框架中,智能體通過與環境互動,來學習采取何種動作能使其在給定環境中的長期獎勵最大化,就像在上述的棋盤游戲寓言中,你通過與棋盤的互動來學習
    的頭像 發表于 07-15 10:56 ?1.8w次閱讀
    什么是<b class='flag-5'>強化學習</b>?純<b class='flag-5'>強化學習</b>有意義嗎?<b class='flag-5'>強化學習</b><b class='flag-5'>有</b>什么的致命缺陷?

    一文詳談機器學習強化學習

    強化學習屬于機器學習中的一個子集,它使代理能夠理解在特定環境中執行特定操作的相應結果。目前,相當一部分機器人就在使用強化學習掌握種種新能力。
    發表于 11-06 15:33 ?1784次閱讀

    機器學習中的無模型強化學習算法及研究綜述

    強化學習( Reinforcement learning,RL)作為機器學習領域中與監督學習、無監督學習并列的第三種
    發表于 04-08 11:41 ?11次下載
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>中的無模型<b class='flag-5'>強化學習</b>算法及研究綜述

    什么是強化學習

    強化學習機器學習的方式之一,它與監督學習、無監督學習并列,是三種
    的頭像 發表于 10-30 11:36 ?4244次閱讀
    什么是<b class='flag-5'>強化學習</b>

    如何使用 PyTorch 進行強化學習

    強化學習(Reinforcement Learning, RL)是一種機器學習方法,它通過與環境的交互來學習如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源
    的頭像 發表于 11-05 17:34 ?394次閱讀
    主站蜘蛛池模板: 日本特级黄色大片 | a免费在线 | 69日本xxxxxxxxx30| 欧美日韩一区二区三区视视频 | 清纯唯美亚洲综合欧美色 | 侵犯希崎中文字幕在线 | 四虎www成人影院免费观看 | 久久久久久久性潮 | 爱爱小说视频永久免费网站 | 成人a级特黄毛片 | 日本黄色免费观看 | 射在老师的里面真爽 | 三级黄色免费 | 自拍偷自拍亚洲精品被多人伦好爽 | 一级女性黄 色生活片 | 欧美色图一区 | 久久免费视频精品 | 免费精品| 国产精品福利午夜一级毛片 | 干干操| 日韩在线视频一区二区三区 | 丁香婷婷色 | 久久夜夜肉肉热热日日 | 色先峰| 亚洲jizzjizz中文在线播放 | 伊人不卡久久大香线蕉综合影院 | 国产性色视频 | 四虎精品免费国产成人 | 日韩国产片| 天天躁狠狠躁夜夜躁 | 五月六月婷婷 | 婷婷99精品国产97久久综合 | 啪啪影城 | 久久99热精品免费观看无卡顿 | 丁香六月色婷婷综合网 | 天天操天天射天天舔 | 福利姬 magnet| 日韩毛片 | 天天操天天舔天天射 | 色偷偷888欧美精品久久久 | 手机看片国产免费永久 |