在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Deepmind“好奇心學習”新機制:讓智能體不再偷懶

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-10-26 10:02 ? 次閱讀

Google、Deepmind和蘇黎世聯邦理工學院的研究人員提出“好奇心學習”新方法,改變了智能體“好奇心”的生成方式和獎勵機制,獎勵機制不再基于智能體的“意外”,而是其記憶和所在情景。研究人員稱,新方法可以有效降低智能體“原地兜圈子”、“拖延”等不良行為,有效提升模型性能。

強化學習是機器學習中最活躍的研究領域之一,在該領域的研究環境下,人工智能體(agent)做到正確的事情時會獲得積極的獎勵,否則獲得負面的獎勵。

這種“胡蘿卜加大棒”的方法簡單而通用,DeepMind教授利用DQN算法來玩Atari游戲和AlphaGoZero下圍棋,都是利用強化學習模型。OpenAI團隊利用OpenAI-Five算法來打Dota,Google如何教機器人手臂來握住新目標,也是利用強化學習實現的。不過,盡管強化學習取得了如此大的成功,但想使其成為一種有效的技術,仍然存在許多挑戰。

標準的強化學習算法在對智能體反饋信息很少的環境中表現不佳。至關重要的是,這類環境在現實世界中是很常見的。舉個例子,如何在一個大型的迷宮式超市中學習如何找到自己喜歡的奶酪。你找了又找,但找不到賣奶酪的貨架。

如果做完了某一步動作,既沒有“胡蘿卜”,也沒有“大棒”,那智能體便無法判斷是否正朝著正確的方向前進。在沒有獎勵的情況下,怎樣才能避免原地兜圈子?也只有好奇心了,好奇心會激勵目標進入一個似乎不熟悉的區域,到那里去找奶酪。

在Google Brain團隊、DeepMind和蘇黎世聯邦理工學院的合作研究中,提出了一種新的基于情景記憶的模型,它可以提供與好奇心類似的獎勵,可以用于探索周圍環境。

研究團隊希望,智能體不僅要能探索環境,而且還要解決原始任務,因此將模型提供的獎勵加入原始的反饋信息稀疏的任務的獎勵中。合并后的獎勵不再稀疏,使用標準強化學習算法就可以從中學習。因此,該團隊提出的好奇心方法擴展了可用強化學習解決的任務集。研究論文題為《Episodic Curiosity through Reachability》

基于情景的好奇心模型:觀察結果被添加到智能體的記憶中,獎勵基于智能體當前的觀察結果與記憶中最相似的結果的差異來計算的。智能體會因為看到記憶中尚不存在的觀察結果而獲得更多獎勵。

這一方法的關鍵是,將智能體對環境的觀察結果存儲在情景記憶中,同時對智能體觀察到的“記憶中尚不存在”的結果也進行獎勵。“記憶中不存在”是這一方法中新的定義,智能體去尋求這種觀察結果,意味著去尋求不熟悉的東西。尋求陌生事物的驅動力會讓智能體到達新的位置,防止其在原地兜圈子,并最終幫助其找到目標。下文還將談到,這種方法不會像其他一些方法那樣,讓智能體出現一些不希望出現的行為,比如類似人類的“拖延”行為。

過去的好奇心學習機制:基于“意外”的好奇心

盡管在過去有許多嘗試來形成好奇心,但本文關注的是一種自然且非常流行的方法:基于“意外”的好奇心機制。最近一篇題為“Curiosity-driven Exploration bySelf-supervised Prediction”的論文中探討了這個問題。此方法一般稱為ICM方法。為了說明意外是如何引發好奇心的,這里再次以超市中尋找奶酪的比喻為例。

想象一下當你在逛市場時,其實會嘗試著預測未來(“現在我在賣肉攤位處,所以我認為拐角處應該是賣魚的,超市連鎖店中這兩個部分一般是相鄰的”)。如果你的預測錯了,你會感到意外(“啊,原來是賣菜的。我沒想到!”)因而得到一個回報。這使你更有動力將來更加關注拐角處,探索新的地方,看看自己對它們的預測是否符合現實(也是希望能夠找到奶酪)。

與此類似,ICM方法也建立了關于世界動態的預測模型,并在模型未能做出良好預測時對智能體給予獎勵,這種獎勵標志著“意外”或“新東西”。注意,探索沒去過的地方,并不是ICM好奇心機制的直接組成部分。

對于ICM方法而言,這只是獲得更多“意外”的一種方式,目的是讓獲得的總體獎勵最大化。事實證明,在某些環境中可能存在其他方式造成“自我意外”,從而導致無法預料的結果。

基于“意外”好奇心的智能體會一直卡在電視前,不去執行任務

基于“意外好奇心“的智能體易產生“拖延行為”

在 《Large-Scale Study of Curiosity-Driven Learning》一文中,ICM方法的作者和OpenAI的研究人員表明,基于“意外最大化”的強化學習方法可能存在潛在的風險:智能體可以學會放縱和拖延的行為,不去做任何有用的事情來完成當前任務。

為了了解其中的原因,請看一個常見的思想實驗,實驗名為“嘈雜的電視問題”,在實驗中,智能體被置于一個迷宮中,任務是尋找一個非常有價值的項目(與本文之前的超市例子中的“奶酪”類似)。

測試環境中還放了一臺電視,智能體有電視的遙控器。電視頻道數量有限(每個頻道放映不同的節目),每次按鍵都會切換到隨機頻道。智能體在這樣的環境中會如何表現?

對基于意外的好奇心的方法而言,改變頻道會產生巨大的回報,因為每次頻道變化都是不可預測和意外的。重要的是,即使在所有可用頻道的節目都循環出現一次之后,由于頻道放映的內容是隨機的,所以每一個新變化仍然屬于意外,因為智能體一直預測改變頻道后會放什么節目,這個預測很可能會出錯,導致意外的產生。

即使智能體已經看過每個頻道的每個節目,這種隨機變化仍然是不可預測的。因此,不斷收獲意外的好奇心智能體,最終將永遠留在電視機前,不會去尋找那個非常有價值的物品,這類似于一種“拖延”行為。那么,如何定義“好奇心”才能避免產生這種拖延行為呢?

基于“情境”的好奇心模型

在《Episodic Curiositythrough Reachability》一文中,我們探索了一種基于記憶的“情境好奇心”模型,結果證明,這種模型不太容易產生“自我放縱”的即時滿足感。為什么呢?

這里仍以上文的實驗為例,智能體在不斷變換電視頻道一段時間后,所有的節目最終都會出現在記憶中。因此,電視將不再具有吸引力:即使屏幕上出現的節目順序是隨機且不可預測的,但所有這些節目已經在記憶中了。

這是本方法與前文的“基于意外”的方法的主要區別:我們的方法甚至沒有去預測未來。與此相反,智能體會檢查過去的信息,了解自己是否已經看到過與當前的觀察結果。因此,我們的智能體不會被嘈雜的電視所提供的“即時滿足感”所吸引。它必須去電視之外世界進行探索,才能獲得更多獎勵。

如何判斷智能體是否看到與現有記憶中相同的東西?檢查二者是否完全匹配可能是毫無意義的:因為在現實環境中,很少出現完全相同的場景。比如,即使智能體返回了一間完全相同的房間內,其觀察角度也會與之前的記憶場景不同。

我們不會檢查智能體記憶中的是否存在精確匹配,而是用訓練后的深度神經網絡來衡量兩種體驗的相似度。為了訓練該網絡,我們會猜測前后兩個觀察結果在時間上是否相距很近。如果二者在時間上很接近,很可能就應該被視為智能體同一段體驗中的不同部分。

是新是舊可由“可達性”圖決定。在實際應用中,此圖無法獲取,我們通過訓練神經網絡估計器,在觀察結果之間估計一系列步驟。

實驗結果與未來展望

為了比較不同方法的表現,我們在兩個視覺元素豐富的3D環境中進行了測試:分別為ViZDoom和DMLab。在這些環境中,智能體的任務是處理各種問題,比如在迷宮中搜索目標,或者收集“好目標”,同時避開“壞目標”。

DMLab環境恰好能為智能體提供很炫酷的工具。此前的研究中,關于DMLab的標準設置就是為智能體配備適用所有任務的小工具,如果代理不需要特定任務的小工具,那么也可以不用。

有趣的是,在類似于上文的嘈雜的電視實驗中,基于意外的ICM方法實際上使用了這個小工具,即使它對于當前任務并無用處!智能體的任務是在迷宮中搜尋高回報的目標,但它卻更喜歡花時間對墻壁進行標記,因為這會產生很多“意外”獎勵。

從理論上講,預測標記的結果是可能的,但實際上太難實現了,因為智能體顯然不具備預測這些結果所需的更深入的物理知識。

基于“意外”的ICM方法,智能體一直在標記墻壁,而不是探索迷宮

而我們的方法則在相同的條件下學習合理的探索行為。智能體沒有試圖預測其行為的結果,而是尋求從已在情景記憶中存在的那些“更難”實現目標的觀察結果。換句話說,智能體會根據記憶,去尋求更難實現的目標,而不僅僅進行標記操作。

在我們的“情景記憶”方法中,智能體會進行合理的探索

有趣的是,我們的方法所實施的獎勵機制,會懲罰在原地兜圈子的智能體。這是因為在完成一次內容循環后,智能體之后的觀察結果都已存在于記憶中了,因此不會得到任何獎勵:

對我們的方法獎勵機制的可視化:紅色表示負面獎勵,綠色表示正面獎勵。從左到右分別為:使用獎勵的映射,使用當前記憶位置的映射,第一人稱視圖

我們希望我們的研究有助于引領對新的探索方法的討論。有關我們方法的深入分析,請查看我們的研究論文的預印本。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    29537

    瀏覽量

    211772
  • 智能體
    +關注

    關注

    1

    文章

    274

    瀏覽量

    10979

原文標題:Deepmind“好奇心”強化學習新突破!改變獎勵機制,讓智能體不再“兜圈子”

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    TC275HSM能支持SecOC中的密鑰刷新機制嗎?

    1.請教一下,像TC275HSM 能支持SecOC中的密鑰刷新機制嗎?即SecOC中的密鑰生成節點生成新的密鑰后,是如何下發給ECU的HSM中?2. 二代HSM TC3xx 的HSM 集成
    發表于 02-21 06:07

    南灣街道探索電動車管理新機制,首批智能充電樁投入使用

    ,積極探索管理新機制。街道納管轄區45家電動自行車生產、銷售、維修單位,并化繁為簡,采取“疏堵結合、以疏為主、***搭臺、企業運作、智慧管理”模式,以電動車保有量為413臺的沙塘布社區為實施試點,計劃建設6個
    發表于 08-29 14:51

    Microchip Technology的好奇心板的新設計

    即使在這個低成本的32位微控制器時代,8位微控制器仍然具有相關性,并將繼續用于新設計。 Microchip Technology的好奇心板是一款經濟高效,完全集成的8位開發平臺,面向首次使用者
    發表于 10-31 11:55

    求大神分享一種基于bootloader的嵌入式軟件自動更新機制

    本文提出了一種具有較高穩定性和安全性、基于bootloader的嵌入式軟件自動更新機制。該更新機制同時保存了3個文件,需要較多的Flash存儲空間,但同時降低了維護成本。
    發表于 04-27 06:33

    Android系統固件更新機制設計資料分享

    Android系統固件更新機制設計說明文檔V1.1xxx2014-9-14修改歷史記錄內容編制\日期審核\日期批準\日期 V1.0建立初稿Xxx2014-9-14 V1.1 增加配圖,統一英文單詞大小寫Android啟動過程錯誤修正,紅色字體部...
    發表于 12-20 08:08

    一種基于嵌入式系統的遠程程序更新機制

    提出了一種基于嵌入式系統的遠程程序更新機制,通過一個具體的嵌入式遠程數字監控系統設計方案,分析了該機制的系統結構、實現原理和實現流程,實際的應用測試表明,所
    發表于 08-26 11:47 ?16次下載

    ADO_NET數據集更新機制及并發控制策略

    ADO_NET數據集更新機制及并發控制策略:本文分析了8I5J (?> 中的更新機制,論述了三種不同的更新邏輯的產生方式及各自特點,提出了并發控制的一些解決方法,及更新邏輯中其他一
    發表于 01-01 18:48 ?12次下載

    嵌入式系統自更新機制的設計與應用

    嵌入式系統自更新機制的設計與應用   隨著嵌入式系統的發展和廣泛應用,必不可少的維護工作變得日益繁重。如移動電話在用戶使用過程中,部
    發表于 03-29 15:08 ?1092次閱讀
    嵌入式系統自更<b class='flag-5'>新機制</b>的設計與應用

    適用動態存儲的自適應刷新機制算法設計

    為滿足航天應用中數據傳輸與存儲中高可靠以及低功耗的要求,實現了一種自適應刷新機制的同步動態隨機存儲(Synchronous Dynamic Random Access MemorySDRAM)控制器
    發表于 04-03 16:00 ?0次下載
    適用動態存儲的自適應刷<b class='flag-5'>新機制</b>算法設計

    強化學習好奇心”模型:訓練無需外部獎勵,全靠自己

    我們的思路是,將內在獎勵表示為預測agent在當前狀態下的行為后果時出現的錯誤,即agent學習的前向動態的預測誤差。我們徹底調查了54種環境中基于動力學的好奇心:這些場景包括視頻游戲、物理引擎模擬和虛擬3D導航任務等,如圖1所示。
    的頭像 發表于 08-20 08:55 ?1.2w次閱讀

    人工智能要想更快更好 好奇心必不可少

    這個問題可能有些寬泛,無法給出一個確切的答案。但如果你想要把接新任務,升級或者再玩一把等一系列概括起來,最簡單的解釋就是“好奇心”——只是想看看接下來會發生什么。事實證明,在指導人工智能玩電子游戲時,好奇心是一個非常有效的動力。
    發表于 11-07 09:51 ?755次閱讀

    機器人擁有好奇心機器人變得更加聰明

    擁有人類探索世界的好奇心,是機器人變得更加聰明的關鍵因素之一。德國波鴻大學的人工好奇心專家瓦倫康培拉指出,好奇的系統“不滿足于只學習一種任
    發表于 06-11 09:24 ?3263次閱讀

    好奇心對于學習人工智能有幫助嗎

    好奇心或進化驅動的人工智能可應用于學習的早期階段,也更適合缺乏大量數據的零散環境。
    發表于 07-01 15:30 ?571次閱讀

    語言模型做先驗,統一強化學習智能DeepMind選擇走這條通用AI之路

    智能的開發中,強化學習與大語言模型、視覺語言模型等基礎模型的進一步融合究竟能擦出怎樣的火花?谷歌 DeepMind 給了我們新的答案。 一直以來,
    的頭像 發表于 07-24 16:55 ?767次閱讀
    語言模型做先驗,統一強化<b class='flag-5'>學習</b><b class='flag-5'>智能</b><b class='flag-5'>體</b>,<b class='flag-5'>DeepMind</b>選擇走這條通用AI之路

    石墨烯之父——安德烈·海姆,好奇心驅使下的幽默大師和創新者

    安德烈·海姆教授是卓越科學家,被譽為“石墨烯之父”,獲諾貝爾物理學獎,對石墨烯材料有重大貢獻。他重視好奇心,鼓勵將好奇心集中在研究領域。他認為石墨烯是一種非常年輕的材料,未來有著無限的可能性,可以應用于電池、光照材料、冷卻LED等方面。保持
    的頭像 發表于 10-31 21:36 ?1353次閱讀
    石墨烯之父——安德烈·海姆,<b class='flag-5'>好奇心</b>驅使下的幽默大師和創新者
    主站蜘蛛池模板: 777色狠狠一区二区三区香蕉 | 性欧美高清久久久久久久 | 久久99热精品这里久久精品 | 国产精品二区三区免费播放心 | 男女免费观看视频 | 天天干亚洲 | 中国黄色一级毛片 | 成人午夜在线观看国产 | 九色精品在线 | 一级黄色片在线看 | 国产在线一区视频 | 亚洲日韩色综合视频 | 一级在线观看视频 | 在线三级网 | 天堂tv亚洲tv日本tv欧美人tv | 亚洲综合日韩欧美一区二区三 | 久久久噜噜噜久久久午夜 | 拍拍拍拍拍拍拍无挡大全免费 | 亚洲精品色一区色二区色三区 | 婷婷五月情 | 久久亚洲精品成人综合 | 伊人操| 美女免费视频一区二区三区 | 天天躁夜夜躁狠狠躁2024 | 欧美透逼视频 | 亚洲欧美在线视频免费 | 亚洲男人天堂岛 | 国产精品14p| 岛国大片在线播放 | 手机福利在线 | dyav午夜片 | 奇米网狠狠干 | 五月天婷婷社区 | 天天做天天爽爽快快 | 婷婷社区五月天 | 久久本道综合色狠狠五月 | jizz免费一区二区三区 | 久久永久免费视频 | 欧美com| 男人不识本网站上遍色站也枉然 | 国产精品臀控福利在线观看 |