在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用強(qiáng)化學(xué)習(xí)探索多巴胺對(duì)學(xué)習(xí)的作用

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-05-16 09:03 ? 次閱讀

繼上周在 Nature 發(fā)表極受關(guān)注的“網(wǎng)格細(xì)胞”研究后,DeepMind今天又在《自然-神經(jīng)科學(xué)》發(fā)表一篇重磅論文:利用強(qiáng)化學(xué)習(xí)探索多巴胺對(duì)學(xué)習(xí)的作用,發(fā)現(xiàn)AI的學(xué)習(xí)方式與神經(jīng)科學(xué)實(shí)驗(yàn)中動(dòng)物的學(xué)習(xí)方式類似。該研究提出的理論可以解釋神經(jīng)科學(xué)和心理學(xué)中的許多神秘發(fā)現(xiàn)。

AI系統(tǒng)已經(jīng)掌握了多種電子游戲,如雅達(dá)利經(jīng)典的“突出重圍”(Breakout)和“乒乓球”(Pong)游戲。但盡管AI在玩游戲方便的表現(xiàn)令人印象深刻,它們?nèi)匀皇且揽肯喈?dāng)于數(shù)千小時(shí)的游戲時(shí)間訓(xùn)練,才達(dá)到或超越人類的水平。相比之下,我們?nèi)祟愅ǔV换◣追昼娋湍苷莆找豢钗覀儚奈赐孢^的電子游戲的基礎(chǔ)知識(shí)。

為什么只有這么少的先驗(yàn)知識(shí),人類的大腦卻能做這么多的事情呢?這就引出了“元學(xué)習(xí)”(meta-learning)的理論,或者說“學(xué)習(xí)如何學(xué)習(xí)”(learning to learn)。人們認(rèn)為,人是在兩個(gè)時(shí)間尺度上學(xué)習(xí)的——在短期,我們專注于學(xué)習(xí)具體的例子;而在較長的時(shí)間尺度,我們學(xué)習(xí)完成一項(xiàng)任務(wù)所需的抽象技能或規(guī)則。正是這種組合被認(rèn)為有助于人高效地學(xué)習(xí),并將這些知識(shí)快速靈活地應(yīng)用于新任務(wù)。

在 AI 系統(tǒng)中重建這種元學(xué)習(xí)結(jié)構(gòu)——稱為元強(qiáng)化學(xué)習(xí)(meta-reinforcement learning)——已經(jīng)被證明能夠促進(jìn)智能體(agents)快速、one-shot的學(xué)習(xí)。這方面的研究已經(jīng)有很多,例如DeepMind的論文“Learning to reinforcement learn”和OpenAI的“RL2: Fast Reinforcement Learning via Slow Reinforcement Learning”。然而,促使這個(gè)過程在大腦中發(fā)生的具體機(jī)制是怎樣的,這在神經(jīng)科學(xué)中大部分仍未得到解釋。

今天,DeepMind在《自然-神經(jīng)科學(xué)》(Nature Neuroscience)發(fā)表的新論文中,研究人員使用AI研究中開發(fā)的元強(qiáng)化學(xué)習(xí)框架來探索多巴胺在大腦中幫助我們學(xué)習(xí)時(shí)所起的作用。論文題為:Prefrontal cortex as a meta-reinforcement learning system。

多巴胺——通常被稱為大腦的愉悅因子——被認(rèn)為與AI強(qiáng)化學(xué)習(xí)算法中使用的獎(jiǎng)勵(lì)預(yù)測(cè)誤差信號(hào)類似。AI系統(tǒng)通過獎(jiǎng)勵(lì)(reward)指引的試錯(cuò)來學(xué)習(xí)如何行動(dòng)。研究者認(rèn)為,多巴胺的作用不僅僅是利用獎(jiǎng)勵(lì)來學(xué)習(xí)過去行為的價(jià)值,而且,多巴胺在大腦的前額葉皮層區(qū)扮演者不可或缺的角色,使我們能夠高效、快速、靈活地學(xué)習(xí)新任務(wù)。

模擬agent的獎(jiǎng)勵(lì)預(yù)測(cè)誤差反映了推斷值,而不僅僅是經(jīng)驗(yàn)值,類似于在猴子中觀察到的。

DeepMind的研究人員通過模擬重建神經(jīng)科學(xué)領(lǐng)域的6個(gè)元學(xué)習(xí)實(shí)驗(yàn)來測(cè)試他們的理論——每個(gè)實(shí)驗(yàn)都要求一個(gè)agent執(zhí)行任務(wù),這些任務(wù)使用相同的基礎(chǔ)原則(或同一套技能),但在某些方面有所不同。

我們使用標(biāo)準(zhǔn)深度強(qiáng)化學(xué)習(xí)技術(shù)(代表多巴胺的作用)訓(xùn)練了一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)(代表前額葉皮質(zhì)),然后將這個(gè)循環(huán)網(wǎng)絡(luò)的活動(dòng)狀態(tài)與之前在神經(jīng)科學(xué)實(shí)驗(yàn)中得到的實(shí)際數(shù)據(jù)進(jìn)行比較。對(duì)于元學(xué)習(xí)來說,循環(huán)網(wǎng)絡(luò)是一個(gè)很好的代理,因?yàn)樗鼈兡軌驅(qū)⑦^去的行為和觀察內(nèi)在化,然后在訓(xùn)練各種各樣的任務(wù)時(shí)借鑒這些經(jīng)驗(yàn)。

我們重建的一個(gè)實(shí)驗(yàn)叫做Harlow實(shí)驗(yàn),這是20世紀(jì)40年代的一個(gè)心理學(xué)實(shí)驗(yàn),用于探索元學(xué)習(xí)的概念。在原版的測(cè)試中,一組猴子被展示兩個(gè)不熟悉的物體,只有其中一個(gè)會(huì)給他們食物獎(jiǎng)勵(lì)。兩個(gè)物體一共被展示了6次,每次的左右放置都是隨機(jī)的,所以猴子必須要知道哪個(gè)會(huì)給它們食物獎(jiǎng)勵(lì)。然后,他們?cè)俅伪徽故玖硗鈨蓚€(gè)新的物體,同樣,只有其中一個(gè)會(huì)給它們食物。

在這個(gè)訓(xùn)練過程中,猴子發(fā)展出一種策略來選擇能得到獎(jiǎng)勵(lì)的物體:它學(xué)會(huì)了在第一次的時(shí)候隨機(jī)選擇,然后,下一次根據(jù)獎(jiǎng)勵(lì)的反饋選擇特定的對(duì)象,而不是從左到右選擇。這個(gè)實(shí)驗(yàn)表明,猴子可以將任務(wù)的基本原理內(nèi)化,學(xué)會(huì)一種抽象的規(guī)則結(jié)構(gòu)——實(shí)際上就是學(xué)會(huì)了如何學(xué)習(xí)。

meta-RL 的架構(gòu)

當(dāng)我們使用虛擬的計(jì)算機(jī)屏幕和隨機(jī)選擇的圖像來模擬一個(gè)非常相似的測(cè)試時(shí),我們發(fā)現(xiàn),我們的“元強(qiáng)化學(xué)習(xí)智能體”(meta-RL agent)似乎是以類似于Harlow實(shí)驗(yàn)中的動(dòng)物的方式在學(xué)習(xí),甚至在被顯示以前從未見過的全新圖像時(shí)也是如此。

在模擬的Harlow實(shí)驗(yàn)中,agent必須將它的視線轉(zhuǎn)向它認(rèn)為能得到獎(jiǎng)勵(lì)的對(duì)象

實(shí)際上,我們發(fā)現(xiàn)meta-RL agent可以學(xué)習(xí)如何快速適應(yīng)規(guī)則和結(jié)構(gòu)不同的各種任務(wù)。而且,由于網(wǎng)絡(luò)學(xué)會(huì)了如何適應(yīng)各種任務(wù),它也學(xué)會(huì)了關(guān)于如何有效學(xué)習(xí)的一般原則。

很重要的一點(diǎn)是,我們發(fā)現(xiàn)大部分的學(xué)習(xí)發(fā)生在循環(huán)網(wǎng)絡(luò)中,這支持了我們的觀點(diǎn),即多巴胺在元學(xué)習(xí)過程中的作用比以前人們認(rèn)為的更為重要。傳統(tǒng)上,多巴胺被認(rèn)為能夠加強(qiáng)前額葉系統(tǒng)的突觸連接,從而強(qiáng)化特定的行為。

在AI中,這意味著類多巴胺的獎(jiǎng)勵(lì)信號(hào)在神經(jīng)網(wǎng)絡(luò)中調(diào)整人工突觸的權(quán)重,因?yàn)樗鼘W(xué)會(huì)了解決任務(wù)的正確方法。然而,在我們的實(shí)驗(yàn)中,神經(jīng)網(wǎng)絡(luò)的權(quán)重被凍結(jié),這意味著在學(xué)習(xí)過程中權(quán)重不能被調(diào)整。但是,meta-RL agent仍然能夠解決并適應(yīng)新的任務(wù)。這表明,類多巴胺的獎(jiǎng)勵(lì)不僅用于調(diào)整權(quán)重,而且還能傳遞和編碼有關(guān)抽象任務(wù)和規(guī)則結(jié)構(gòu)的重要信息,從而加快對(duì)新任務(wù)的適應(yīng)。

Meta-RL在視覺豐富的3D環(huán)境中學(xué)習(xí)抽象結(jié)構(gòu)和新的刺激

長期以來,神經(jīng)科學(xué)家在大腦的前額葉皮質(zhì)中觀察到類似的神經(jīng)活動(dòng)模式,這種模式能夠快速適應(yīng),而且很靈活,但一直以來科學(xué)家難以找到能夠解釋為什么會(huì)這樣的充分理由。前額葉皮層不依賴突觸重量的緩慢變化來學(xué)習(xí)規(guī)則結(jié)構(gòu),而是使用直接編碼在多巴胺上的、抽象的基于模式的信息,這一觀點(diǎn)提供了一個(gè)更令人信服的解釋。

為了證明AI中存在的引起元強(qiáng)化學(xué)習(xí)的關(guān)鍵因素也存在于大腦中,我們提出了一個(gè)理論,該理論不僅與已知的關(guān)于多巴胺和前額葉皮層的了解相符,而且可以解釋神經(jīng)科學(xué)和心理學(xué)中的許多神秘發(fā)現(xiàn)。特別是,該理論對(duì)了解大腦中結(jié)構(gòu)化的、基于模式的學(xué)習(xí)是如何出現(xiàn)的,為什么多巴胺本身包含有基于模式的信息,以及前額葉皮質(zhì)中的神經(jīng)元是如何調(diào)整為與學(xué)習(xí)相關(guān)的信號(hào)等問題提出了新的啟發(fā)。

來自AI研究的見解可以用于解釋神經(jīng)科學(xué)和心理學(xué)的發(fā)現(xiàn),這強(qiáng)調(diào)了,一個(gè)研究領(lǐng)域的價(jià)值可以提供給另一個(gè)領(lǐng)域。展望未來,我們期望能從反過來的方向得到更多益處,通過在為強(qiáng)化學(xué)習(xí)智能體的學(xué)習(xí)設(shè)計(jì)新的模型時(shí),從特定腦回路組織得到啟發(fā)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:DeepMind用強(qiáng)化學(xué)習(xí)探索大腦多巴胺對(duì)學(xué)習(xí)的作用

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    什么是深度強(qiáng)化學(xué)習(xí)?深度強(qiáng)化學(xué)習(xí)算法應(yīng)用分析

    什么是深度強(qiáng)化學(xué)習(xí)? 眾所周知,人類擅長解決各種挑戰(zhàn)性的問題,從低級(jí)的運(yùn)動(dòng)控制(如:步行、跑步、打網(wǎng)球)到高級(jí)的認(rèn)知任務(wù)。
    發(fā)表于 07-01 10:29 ?1743次閱讀
    什么是深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法應(yīng)用分析

    反向強(qiáng)化學(xué)習(xí)的思路

    強(qiáng)化學(xué)習(xí)的另一種策略(二)
    發(fā)表于 04-03 12:10

    深度強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)

    一:深度學(xué)習(xí)DeepLearning實(shí)戰(zhàn)時(shí)間地點(diǎn):1 月 15日— 1 月18 日二:深度強(qiáng)化學(xué)習(xí)核心技術(shù)實(shí)戰(zhàn)時(shí)間地點(diǎn): 1 月 27 日— 1 月30 日(第一天報(bào)到 授課三天;提前環(huán)境部署 電腦
    發(fā)表于 01-10 13:42

    將深度學(xué)習(xí)強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)DRL

    深度強(qiáng)化學(xué)習(xí)DRL自提出以來, 已在理論和應(yīng)用方面均取得了顯著的成果。尤其是谷歌DeepMind團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)DRL研發(fā)的AlphaGo,將深度強(qiáng)化學(xué)習(xí)DRL成推上新的熱點(diǎn)和高度,成為人工智能歷史上一個(gè)新的里程碑。因此,深
    發(fā)表于 06-29 18:36 ?2.8w次閱讀

    薩頓科普了強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí),并談到了這項(xiàng)技術(shù)的潛力和發(fā)展方向

    薩頓在專訪中(再次)科普了強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí),并談到了這項(xiàng)技術(shù)的潛力,以及接下來的發(fā)展方向:預(yù)測(cè)學(xué)習(xí)
    的頭像 發(fā)表于 12-27 09:07 ?1.1w次閱讀

    如何深度強(qiáng)化學(xué)習(xí) 人工智能和深度學(xué)習(xí)的進(jìn)階

    傳統(tǒng)上,強(qiáng)化學(xué)習(xí)在人工智能領(lǐng)域占據(jù)著一個(gè)合適的地位。但強(qiáng)化學(xué)習(xí)在過去幾年已開始在很多人工智能計(jì)劃中發(fā)揮更大的作用
    的頭像 發(fā)表于 03-03 14:16 ?4335次閱讀

    人工智能機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是智能系統(tǒng)從環(huán)境到行為映射的學(xué)習(xí),以使獎(jiǎng)勵(lì)信號(hào)(強(qiáng)化信號(hào))函數(shù)值最大,強(qiáng)化學(xué)習(xí)不同于連接主義學(xué)習(xí)中的監(jiān)督
    發(fā)表于 05-30 06:53 ?1471次閱讀

    什么是強(qiáng)化學(xué)習(xí)?純強(qiáng)化學(xué)習(xí)有意義嗎?強(qiáng)化學(xué)習(xí)有什么的致命缺陷?

    強(qiáng)化學(xué)習(xí)是人工智能基本的子領(lǐng)域之一,在強(qiáng)化學(xué)習(xí)的框架中,智能體通過與環(huán)境互動(dòng),來學(xué)習(xí)采取何種動(dòng)作能使其在給定環(huán)境中的長期獎(jiǎng)勵(lì)最大化,就像在上述的棋盤游戲寓言中,你通過與棋盤的互動(dòng)來學(xué)習(xí)
    的頭像 發(fā)表于 07-15 10:56 ?1.8w次閱讀
    什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>?純<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有意義嗎?<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>有什么的致命缺陷?

    基于強(qiáng)化學(xué)習(xí)的MADDPG算法原理及實(shí)現(xiàn)

    之前接觸的強(qiáng)化學(xué)習(xí)算法都是單個(gè)智能體的強(qiáng)化學(xué)習(xí)算法,但是也有很多重要的應(yīng)用場(chǎng)景牽涉到多個(gè)智能體之間的交互。
    的頭像 發(fā)表于 11-02 16:18 ?2.2w次閱讀

    深度強(qiáng)化學(xué)習(xí)到底是什么?它的工作原理是怎么樣的

    深度學(xué)習(xí)DL是機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。深度學(xué)習(xí)DL有監(jiān)督和非監(jiān)督之分,都已經(jīng)得到廣泛的研究和應(yīng)用。強(qiáng)化學(xué)習(xí)RL是通過對(duì)未
    的頭像 發(fā)表于 06-13 11:39 ?6398次閱讀

    DeepMind發(fā)布強(qiáng)化學(xué)習(xí)庫RLax

    RLax(發(fā)音為“ relax”)是建立在JAX之上的庫,它公開了用于實(shí)施強(qiáng)化學(xué)習(xí)智能體的有用構(gòu)建塊。。報(bào)道:深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室作者:DeepRL ...
    的頭像 發(fā)表于 12-10 18:43 ?834次閱讀

    機(jī)器學(xué)習(xí)中的無模型強(qiáng)化學(xué)習(xí)算法及研究綜述

    強(qiáng)化學(xué)習(xí)( Reinforcement learning,RL)作為機(jī)器學(xué)習(xí)領(lǐng)域中與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列的第三種學(xué)習(xí)范式,通過與環(huán)境進(jìn)行
    發(fā)表于 04-08 11:41 ?11次下載
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>中的無模型<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法及研究綜述

    模型化深度強(qiáng)化學(xué)習(xí)應(yīng)用研究綜述

    強(qiáng)化學(xué)習(xí)。無模型強(qiáng)仳學(xué)習(xí)方法的訓(xùn)練過程需要大量樣本,當(dāng)采樣預(yù)算不足,無法收集大量樣本時(shí),很難達(dá)到預(yù)期效果。然而,模型化強(qiáng)化學(xué)習(xí)可以充分利用環(huán)境模型,降低真實(shí)樣本需求量,在一定程度上提高
    發(fā)表于 04-12 11:01 ?9次下載
    模型化深度<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>應(yīng)用研究綜述

    什么是強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的方式之一,它與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并列,是三種機(jī)器學(xué)習(xí)訓(xùn)練方法之一。 在圍棋上擊敗世界第一李世石的 AlphaGo、在《
    的頭像 發(fā)表于 10-30 11:36 ?4578次閱讀
    什么是<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過與環(huán)境的交互來學(xué)習(xí)如何做出決策,以最大化累積獎(jiǎng)勵(lì)。PyTorch 是一個(gè)流行的開源機(jī)器學(xué)習(xí)庫,
    的頭像 發(fā)表于 11-05 17:34 ?717次閱讀
    主站蜘蛛池模板: 女人张开腿给人桶免费视频 | 黄色一级片在线观看 | 国模视频一区二区 | 麦克斯奥特曼免费观看 | 高清视频在线观看+免费 | 亚洲免费三级 | 色天使色婷婷在线影院亚洲 | 欧美激情一欧美吧 | 狠狠干天天色 | 日本不卡一区二区三区视频 | 97人人模人人揉人人捏 | 国产真实灌醉美女疯狂弄 | 午夜精品久久久久久影视riav | 五月激情电影 | 日韩第五页| 天天射天 | 国产三级在线观看播放 | 五月婷婷六月丁香激情 | 午夜视频h| 深夜一级毛片 | 欧美人成绝费网站色www吃脚 | 第四色成人网 | 黄色一级毛片网站 | 手机看片1024免费视频 | 欧美又粗又长又湿又黄的视频 | 国产a一级毛片午夜剧场14 | 亚洲网站免费观看 | 婷婷综合激六月情网 | 美女全黄网站免费观看 | 六月丁香激情综合成人 | 久久青青成人亚洲精品 | 国产精品久久久久久久免费 | 国产乱辈通伦影片在线播放亚洲 | 欧洲乱码专区一区二区三区四区 | 亚洲第一毛片 | 天天干天天射天天操 | 一级一级特黄女人精品毛片 | 狠狠色狠狠色综合久久一 | 免费一级毛毛片 | 欧美性黑人十极品hd | 国模无水印一区二区三区 |