在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

強化學(xué)習(xí)的經(jīng)典基礎(chǔ)性缺陷可能限制它解決很多復(fù)雜問題

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-07-14 08:42 ? 次閱讀

在上一篇文章里,我們提到了棋盤游戲的比喻和純強化學(xué)習(xí)技術(shù)的缺陷(斯坦福學(xué)者冷思考:強化學(xué)習(xí)存在基礎(chǔ)性缺陷)。在這一部分中,我們會列舉一些添加先驗知識的方法,同時會對深度學(xué)習(xí)進行介紹,并且展示對最近的成果進行調(diào)查。

那么,為什么不跳出純強化學(xué)習(xí)的圈子呢?

你可能會想:

我們不能越過純強化學(xué)習(xí)來模仿人類的學(xué)習(xí)——純強化學(xué)習(xí)是嚴(yán)格制定的方法,我們用來訓(xùn)練AI智能體的算法是基于此的。盡管從零開始學(xué)習(xí)不如多提供些信息,但是我們沒有那樣做。

的確,加入先驗知識或任務(wù)指導(dǎo)會比嚴(yán)格意義上的純強化學(xué)習(xí)更復(fù)雜,但是事實上,我們有一種方法既能保證從零開始學(xué)習(xí),又能更接近人類學(xué)習(xí)的方法。

首先,我們先明確地解釋,人類學(xué)習(xí)和純強化學(xué)習(xí)有什么區(qū)別。當(dāng)開始學(xué)習(xí)一種新技能,我們主要做兩件事:猜想大概的操作方法是什么,或者度說明書。一開始,我們就了解了這一技能要達到的目標(biāo)和大致使用方法,并且從未從低端的獎勵信號開始反向生成這些東西。

UC Berkeley的研究者最近發(fā)現(xiàn),人類的學(xué)習(xí)速度比純強化學(xué)習(xí)在某些時候更快,因為人類用了先驗知識

使用先驗知識和說明書

這種想法在AI研究中有類似的成果:

解決“學(xué)習(xí)如何學(xué)習(xí)”的元學(xué)習(xí)方法:讓強化學(xué)習(xí)智能體更快速地學(xué)會一種新技術(shù)已經(jīng)有類似的技巧了,而學(xué)習(xí)如何學(xué)習(xí)正是我們需要利用先驗知識超越純強化學(xué)習(xí)的方法。

MAML是先進的元學(xué)習(xí)算法。智能體可以在元學(xué)習(xí)少次迭代后學(xué)會向前和向后跑動

遷移學(xué)習(xí):顧名思義,就是將在一種問題上學(xué)到的方法應(yīng)用到另一種潛在問題上。關(guān)于遷移學(xué)習(xí),DeepMind的CEO是這樣說的。

我認為(遷移學(xué)習(xí))是強人工智能的關(guān)鍵,而人類可以熟練地使用這種技能。例如,我現(xiàn)在已經(jīng)玩過很多棋盤類游戲了,如果有人再教我另一種棋類游戲,我可能不會那么陌生,我會把在其他游戲上學(xué)到的啟發(fā)性方法用到這一游戲上,但是現(xiàn)在機器還做不到……所以我想這是強人工智能所面臨的重大挑戰(zhàn)。

零次學(xué)習(xí)(Zero-shot learning):它的目的也是掌握新技能,但是卻不用新技能進行任何嘗試,智能體只需從新任務(wù)接收“指令”,即使沒有執(zhí)行過新的任務(wù)也能一次性表現(xiàn)的很好。

一次學(xué)習(xí)(one-shot learning)和少次學(xué)習(xí)(few-shot learning):這兩類是研究的熱門區(qū)域,他們和零次學(xué)習(xí)不同,因為它們會用到即將學(xué)習(xí)的技巧做示范,或者只需要少量迭代。

終身學(xué)習(xí)(life long learning)和自監(jiān)督學(xué)習(xí)(self supervised learning):也就是長時間不在人類的指導(dǎo)下學(xué)習(xí)。

這些都是除了從零學(xué)習(xí)之外的強化學(xué)習(xí)方法。特別是元學(xué)習(xí)和零次學(xué)習(xí)體現(xiàn)了人在學(xué)習(xí)一種新技能時更有可能的做法,與純強化學(xué)習(xí)有差別。一個元學(xué)習(xí)智能體會利用先驗知識快速學(xué)習(xí)棋類游戲,盡管它不明白游戲規(guī)則。另一方面,一個零次學(xué)習(xí)智能體會詢問游戲規(guī)則,但是不會做任何學(xué)習(xí)上的嘗試。一次學(xué)習(xí)和少次學(xué)習(xí)方法相似,但是只知道如何運用技能,也就是說智能體會觀察其他人如何玩游戲,但不會要求解釋游戲規(guī)則。

最近一種混合了一次學(xué)習(xí)和元學(xué)習(xí)的方法。來自O(shè)ne-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning

元學(xué)習(xí)和零次學(xué)習(xí)(或少次學(xué)習(xí))的一般概念正是棋類游戲中合理的部分,然而更好的是,將零次學(xué)習(xí)(或少次學(xué)習(xí))和元學(xué)習(xí)結(jié)合起來就更接近人類學(xué)習(xí)的方法了。它們利用先驗經(jīng)驗、說明指導(dǎo)和試錯形成最初對技能的假設(shè)。之后,智能體親自嘗試了這一技巧并且依靠獎勵信號進行測試和微調(diào),從而做出比最初假設(shè)更優(yōu)秀的技能。

這也解釋了為什么純強化學(xué)習(xí)方法目前仍是主流,針對元學(xué)習(xí)和零次學(xué)習(xí)的研究不太受關(guān)注。有一部分原因可能是因為強化學(xué)習(xí)的基礎(chǔ)概念并未經(jīng)受過多質(zhì)疑,元學(xué)習(xí)和零次學(xué)習(xí)的概念也并沒有大規(guī)模應(yīng)用到基礎(chǔ)原理的實現(xiàn)中。在所有運用了強化學(xué)習(xí)的代替方法的研究中,也許最符合我們希望的就是DeepMind于2015年提出的Universal Value Function Approximators,其中Richard Sutton提出了“通用價值函數(shù)(general value function)”。這篇論文的摘要是這樣寫的:

價值函數(shù)是強化學(xué)習(xí)系統(tǒng)中的核心要素。主要思想就是建立一個單一函數(shù)近似器V(s;θ),通過參數(shù)θ來估計任意狀態(tài)s的長期獎勵。在這篇論文中,我們提出了通用價值函數(shù)近似器(UVFAs)V(s, g;θ),不僅能生成狀態(tài)s的獎勵值,還能生成目標(biāo)g的獎勵值。

將UVFA應(yīng)用到實際中

這種嚴(yán)格的數(shù)學(xué)方法將目標(biāo)看作是基礎(chǔ)的、必須的輸入。智能體被告知應(yīng)該做什么,就像在零次學(xué)習(xí)和人類學(xué)習(xí)中一樣。

現(xiàn)在距論文發(fā)表已經(jīng)三年,但只有極少數(shù)人對論文的結(jié)果表示欣喜(作者統(tǒng)計了下只有72人)。據(jù)谷歌學(xué)術(shù)的數(shù)據(jù),DeepMind同年發(fā)表的Human-level control through deep RL一文已經(jīng)有了2906次引用;2016年發(fā)表的Mastering the game of Go with deep neural networks and tree search已經(jīng)獲得了2882次引用。

所以,的確有研究者朝著結(jié)合元學(xué)習(xí)和零次學(xué)習(xí)的方向努力,但是根據(jù)引用次數(shù),這一方向仍然不清楚。關(guān)鍵問題是:為什么人們不把這種結(jié)合的方法看作是默認方法呢?

答案很明顯,因為太難了。AI研究傾向于解決獨立的、定義明確的問題,以更好地做出進步,所以除了純強化學(xué)習(xí)以及從零學(xué)習(xí)之外,很少有研究能做到,因為它們難以定義。但是,這一答案似乎還不夠令人滿意:深度學(xué)習(xí)讓研究人員創(chuàng)造了混合方法,例如包含NLP和CV兩種任務(wù)的模型,或者原始AlphaGo加入了深度學(xué)習(xí)等等。事實上,DeepMind最近的論文Relational inductive biases, deep learning, and graph networks也提到了這一點:

我們認為,通向強人工智能的關(guān)鍵方法就是將結(jié)合生成作為第一要義,我們支持運用多種方法達到目標(biāo)。生物學(xué)也并不是單純的自然和后期培養(yǎng)相對立,它是將二者結(jié)合,創(chuàng)造了更有效的結(jié)果。我們也認為,架構(gòu)和靈活性之間并非對立的,而是互補的。通過最近的一些基于結(jié)構(gòu)的方法和深度學(xué)習(xí)混合的案例,我們看到了結(jié)合技術(shù)的巨大前景。

最近元學(xué)習(xí)(或零次學(xué)習(xí))的成果

現(xiàn)在我們可以得出結(jié)論:

受上篇棋盤游戲比喻的激勵,以及DeepMind通用價值函數(shù)的提出,我們應(yīng)該重新考慮強化學(xué)習(xí)的基礎(chǔ),或者至少更加關(guān)注這一領(lǐng)域。

雖然現(xiàn)有成果并未流行,但我們?nèi)阅馨l(fā)現(xiàn)一些令人激動的成果:

Hindsight Experience Replay

Zero-shot Task Generalization with Multi-Task Deep Reinforcement Learning

Representation Learning for Grounded Spatial Reasoning

Deep Transfer in Reinforcement Learning by Language Grounding

Cross-Domain Perceptual Reward Functions

Learning Goal-Directed Behaviour

上述論文都是結(jié)合了各種方法、或者以目標(biāo)為導(dǎo)向的方法。而更令人激動的是最近有一些作品研究了本能激勵和好奇心驅(qū)使的學(xué)習(xí)方法:

Kickstarting Deep Reinforcement Learning

Surprise-Based Intrinsic Motivation for Deep Reinforcement Learning

Meta-Reinforcement Learning of Structured Exploration Strategies

Learning Robust Rewards with Adversarial Inverse Reinforcement Learning

Curiosity-driven Exploration by Self-supervised Prediction

Learning by Playing - Solving Sparse Reward Tasks from Scratch

Learning to Play with Intrinsically-Motivated Self-Aware Agents

Unsupervised Predictive Memory in a Goal-Directed Agent

World Models

接著,我們還可以從人類的學(xué)習(xí)中獲得靈感,也就是直接學(xué)習(xí)。事實上,過去和現(xiàn)在的神經(jīng)科學(xué)研究直接表明,人類和動物的學(xué)習(xí)可以用強化學(xué)習(xí)和元學(xué)習(xí)共同表示。

Meta-Learning in Reinforcement Learning

Prefrontal cortex as a meta-reinforcement learning system

最后一篇論文的結(jié)果和我們的結(jié)論相同,論智此前曾報道過這篇:DeepMind論文:多巴胺不只負責(zé)快樂,還能幫助強化學(xué)習(xí)。從根本上講,人們可以認為,人類的智慧正是強化學(xué)習(xí)和元學(xué)習(xí)的結(jié)合——元強化學(xué)習(xí)的成果。如果真的是這種情況,我們是否也該對AI做同樣的事呢?

結(jié)語

強化學(xué)習(xí)的經(jīng)典基礎(chǔ)性缺陷可能限制它解決很多復(fù)雜問題,像本文提到的很多論文中都提到,不采用從零學(xué)習(xí)的方法也不是必須有手工編寫或者嚴(yán)格的規(guī)則。元強化學(xué)習(xí)讓智能體通過高水平的指導(dǎo)、經(jīng)驗、案例更好地學(xué)習(xí)。

目前的時機已經(jīng)成熟到可以展開上述工作,將注意力從純強化學(xué)習(xí)的身上移開,多多關(guān)注從人類身上學(xué)到的學(xué)習(xí)方法。但是針對純強化學(xué)習(xí)的工作不應(yīng)該立即停止,而是應(yīng)該作為其他工作的補充?;谠獙W(xué)習(xí)、零次學(xué)習(xí)、少次學(xué)習(xí)、遷移學(xué)習(xí)及它們的結(jié)合的方法應(yīng)該成為默認方法,我很愿意為此貢獻自己的力量。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    232

    瀏覽量

    10907
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5548

    瀏覽量

    122337
  • 強化學(xué)習(xí)
    +關(guān)注

    關(guān)注

    4

    文章

    269

    瀏覽量

    11482

原文標(biāo)題:面對強化學(xué)習(xí)的基礎(chǔ)性缺陷,研究重點也許要轉(zhuǎn)變

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    什么是深度強化學(xué)習(xí)?深度強化學(xué)習(xí)算法應(yīng)用分析

    什么是深度強化學(xué)習(xí)? 眾所周知,人類擅長解決各種挑戰(zhàn)的問題,從低級的運動控制(如:步行、跑步、打網(wǎng)球)到高級的認知任務(wù)。
    發(fā)表于 07-01 10:29 ?1781次閱讀
    什么是深度<b class='flag-5'>強化學(xué)習(xí)</b>?深度<b class='flag-5'>強化學(xué)習(xí)</b>算法應(yīng)用分析

    反向強化學(xué)習(xí)的思路

    強化學(xué)習(xí)的另一種策略(二)
    發(fā)表于 04-03 12:10

    深度強化學(xué)習(xí)實戰(zhàn)

    一:深度學(xué)習(xí)DeepLearning實戰(zhàn)時間地點:1 月 15日— 1 月18 日二:深度強化學(xué)習(xí)核心技術(shù)實戰(zhàn)時間地點: 1 月 27 日— 1 月30 日(第一天報到 授課三天;提前環(huán)境部署 電腦
    發(fā)表于 01-10 13:42

    將深度學(xué)習(xí)強化學(xué)習(xí)相結(jié)合的深度強化學(xué)習(xí)DRL

    深度強化學(xué)習(xí)DRL自提出以來, 已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團隊基于深度強化學(xué)習(xí)DRL研發(fā)的AlphaGo,將深度強化學(xué)習(xí)DRL成推上新的熱點和高度,成為人工智能歷史上一個新的里程碑。因此,深
    發(fā)表于 06-29 18:36 ?2.8w次閱讀

    如何深度強化學(xué)習(xí) 人工智能和深度學(xué)習(xí)的進階

    傳統(tǒng)上,強化學(xué)習(xí)在人工智能領(lǐng)域占據(jù)著一個合適的地位。但強化學(xué)習(xí)在過去幾年已開始在很多人工智能計劃中發(fā)揮更大的作用。
    的頭像 發(fā)表于 03-03 14:16 ?4358次閱讀

    人工智能機器學(xué)習(xí)強化學(xué)習(xí)

    強化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎勵信號(強化信號)函數(shù)值最大,強化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督
    發(fā)表于 05-30 06:53 ?1491次閱讀

    什么是強化學(xué)習(xí)?純強化學(xué)習(xí)有意義嗎?強化學(xué)習(xí)有什么的致命缺陷?

    強化學(xué)習(xí)是人工智能基本的子領(lǐng)域之一,在強化學(xué)習(xí)的框架中,智能體通過與環(huán)境互動,來學(xué)習(xí)采取何種動作能使其在給定環(huán)境中的長期獎勵最大化,就像在上述的棋盤游戲寓言中,你通過與棋盤的互動來學(xué)習(xí)
    的頭像 發(fā)表于 07-15 10:56 ?1.8w次閱讀
    什么是<b class='flag-5'>強化學(xué)習(xí)</b>?純<b class='flag-5'>強化學(xué)習(xí)</b>有意義嗎?<b class='flag-5'>強化學(xué)習(xí)</b>有什么的致命<b class='flag-5'>缺陷</b>?

    基于強化學(xué)習(xí)的MADDPG算法原理及實現(xiàn)

    之前接觸的強化學(xué)習(xí)算法都是單個智能體的強化學(xué)習(xí)算法,但是也有很多重要的應(yīng)用場景牽涉到多個智能體之間的交互。
    的頭像 發(fā)表于 11-02 16:18 ?2.2w次閱讀

    深度強化學(xué)習(xí)到底是什么?的工作原理是怎么樣的

    深度學(xué)習(xí)DL是機器學(xué)習(xí)中一種基于對數(shù)據(jù)進行表征學(xué)習(xí)的方法。深度學(xué)習(xí)DL有監(jiān)督和非監(jiān)督之分,都已經(jīng)得到廣泛的研究和應(yīng)用。強化學(xué)習(xí)RL是通過對未
    的頭像 發(fā)表于 06-13 11:39 ?6450次閱讀

    復(fù)雜應(yīng)用中運用人工智能核心 強化學(xué)習(xí)

    近期,有不少報道強化學(xué)習(xí)算法在 GO、Dota 2 和 Starcraft 2 等一系列游戲中打敗了專業(yè)玩家的新聞。強化學(xué)習(xí)是一種機器學(xué)習(xí)類型,能夠在電子游戲、機器人、自動駕駛等復(fù)雜應(yīng)
    發(fā)表于 07-27 08:50 ?941次閱讀

    一文詳談機器學(xué)習(xí)強化學(xué)習(xí)

    強化學(xué)習(xí)屬于機器學(xué)習(xí)中的一個子集,使代理能夠理解在特定環(huán)境中執(zhí)行特定操作的相應(yīng)結(jié)果。目前,相當(dāng)一部分機器人就在使用強化學(xué)習(xí)掌握種種新能力。
    發(fā)表于 11-06 15:33 ?1879次閱讀

    DeepMind發(fā)布強化學(xué)習(xí)庫RLax

    RLax(發(fā)音為“ relax”)是建立在JAX之上的庫,公開了用于實施強化學(xué)習(xí)智能體的有用構(gòu)建塊。。報道:深度強化學(xué)習(xí)實驗室作者:DeepRL ...
    的頭像 發(fā)表于 12-10 18:43 ?868次閱讀

    《自動化學(xué)報》—多Agent深度強化學(xué)習(xí)綜述

    多Agent 深度強化學(xué)習(xí)綜述 來源:《自動化學(xué)報》,作者梁星星等 摘 要?近年來,深度強化學(xué)習(xí)(Deep reinforcement learning,DRL) 在諸多復(fù)雜序貫決策問
    發(fā)表于 01-18 10:08 ?1823次閱讀
    《自動<b class='flag-5'>化學(xué)</b>報》—多Agent深度<b class='flag-5'>強化學(xué)習(xí)</b>綜述

    什么是強化學(xué)習(xí)

    的AlphaStar,他們都是強化學(xué)習(xí)模型。諸如此類的模型還有 AlphaGo Zero 等。 強化學(xué)習(xí)的原理非常簡單,非常像心理學(xué)中新行為主義派的斯金納發(fā)現(xiàn)的操作條件反射。 操作
    的頭像 發(fā)表于 10-30 11:36 ?4626次閱讀
    什么是<b class='flag-5'>強化學(xué)習(xí)</b>

    如何使用 PyTorch 進行強化學(xué)習(xí)

    的計算圖和自動微分功能,非常適合實現(xiàn)復(fù)雜強化學(xué)習(xí)算法。 1. 環(huán)境(Environment) 在強化學(xué)習(xí)中,環(huán)境是一個抽象的概念,定義了智能體(agent)可以執(zhí)行的動作(acti
    的頭像 發(fā)表于 11-05 17:34 ?783次閱讀
    主站蜘蛛池模板: 色涩在线观看 | 国产精品一区在线观看你懂的 | 中文字幕在线观看一区二区三区 | 天天综合色天天综合网 | 久操成人 | 羞羞视频靠逼视频大全 | 速度与激情10 | 亚洲综合激情丁香六月 | 色多多在线观看高清免费 | vip免费观看 | 日本 韩国 三级 国产 欧美 | 三级网址在线 | 丁香婷婷电影 | 色多多黄色 | 欧美wwwwww| 末发育娇小性色xxxxx视频 | 免费的日本网站 | 男人女人真曰批视频播放 | 国产91色综合久久免费分享 | 午夜免费看视频 | 人人狠狠综合88综合久久 | 国产福利萌白酱喷水视频铁牛 | 久久电影www成人网 久久电影福利 | 五月婷婷激情六月 | 天天做天天做天天综合网 | 五月天婷婷丁香 | 免费爱爱网 | 午夜免费福利片观看 | 国产三级精品视频 | 在线视频网址免费播放 | 国产成人高清精品免费5388密 | 成人免费看黄网站无遮挡 | 天堂资源8中文最新版在线 天堂资源地址在线 | 日本aaaa级片| 色狠狠色综合吹潮 | 亚色网站 | 性欧美xx| 亚洲大香伊人蕉在人依线 | 婷婷综合久久狠狠色99h | 色偷偷91久久综合噜噜噜 | 在线高清视频大全 |