在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Google強化學習框架,要滿足哪三大特性

MqC7_CAAI_1981 ? 來源:未知 ? 作者:工程師郭婷 ? 2018-09-03 14:06 ? 次閱讀

強化學習是一種非常重要 AI 技術,它能使用獎勵(或懲罰)來驅動智能體(agents)朝著特定目標前進,比如它訓練的 AI 系統 AlphaGo 擊敗了頂尖圍棋選手,它也是 DeepMind 的深度 Q 網絡(DQN)的核心部分,它可以在多個 workers 之間分步學習,例如,在 Atari 2600 游戲中實現“超人”性能。

麻煩的是,強化學習框架需要花費大量時間來掌握一個目標,而且框架往往是不靈活和不總是穩定的。

但不用擔心,Google 近日發布了一個替代方案:基于 TensorFlow 的開源強化學習框架 Dopamine(多巴胺)。

Google 的博文中提到,這個基于 Tensorflow 的強化學習框架,旨在為 RL 的研究人員提供靈活性,穩定性和可重復性的研究。受到大腦中獎勵動機行為的主要成分的啟發,以及反映神經科學與強化學習研究之間強烈的歷史聯系,該平臺旨在實現可推動激進發現的思辨研究(speculative research)。此版本還包括一組闡明如何使用整個框架的 colabs。

除了強化學習框架的發布,谷歌還推出了一個網站(https://google.github.io/dopamine/baselines/plots.html),允許開發人員快速可視化多個智能體的訓練運行情況。他們希望,這一框架的靈活性和易用性將使研究人員能積極嘗試新的想法,不管是漸進式還是激進式的想法。

引入靈活和可重復的強化學習研究的新框架

強化學習(RL)研究在過去幾年中取得了許多重大進展。這些進步使得智能體可以以超人類級別的能力玩游戲。比如 Atari 游戲中 DeepMind 的 DQN ,AlphaGo ,AlphaGo Zero 以及 Open AI Five。

具體而言,在 DQN 中引入 replay memories 可以利用以前的智能體經驗,大規模的分布式訓練可以在多個 workers 之間分配學習過程,分布式方法允許智能體模擬完整的分布過程,而不僅僅是模擬它們期望值,以學習更完整的圖景。這種類型的進展很重要,因為出現這些進步的算法還適用于其他領域,例如機器人技術。

通常,這種進步都來自于快速迭代設計(通常沒有明確的方向),以及顛覆既定方法的結構。然而,大多數現有的 RL 框架并沒有結合靈活性和穩定性以及使研究人員能夠有效地迭代 RL 方法,并因此探索可能沒有直接明顯益處的新研究方向。此外,從現有框架再現結果通常太耗時,這可能導致科學的再現性問題。

今天,我們推出了一個新的基于 Tensorflow 的框架,旨在為 RL 的研究人員提供靈活性、穩定性和可重復性。受到大腦中獎勵動機行為的主要成分的啟發,以及反映神經科學與強化學習研究之間強烈的歷史聯系,該平臺旨在實現可推動激進發現的思辨研究(speculative research)。此版本還包括一組闡明如何使用整個框架的 colabs。

易用性

清晰和簡潔是該框架設計中要考慮的兩個關鍵因素。我們提供更精簡的代碼(大約 15 個Python 文件),并且有詳細記錄。這是通過專注于 Arcade 學習環境(一個成熟的,易于理解的基準)和四個基于 value 的智能體來實現的:DQN,C51,一個精心策劃的 Rainbow 智能體的簡化版本,以及隱式分位數網絡(Implicit Quantile Network)智能體,這已在上個月的 ICML 大會上已經發表。我們希望這種簡潔性使研究人員能夠輕松了解智能體內部的運作狀況,并積極嘗試新的想法。

可重復性

我們對重復性在強化學習研究中的重要性特別敏感。為此,我們為代碼提供完整的測試覆蓋率,這些測試也可作為其他文檔形式。此外,我們的實驗框架遵循 Machado 等人給出的關于使用 Arcade 學習環境標準化經驗評估的建議。

基準測試

對于新的研究人員來說,能夠根據既定方法快速對其想法進行基準測試非常重要。因此,我們為 Arcade 學習環境支持的 60 個游戲提供四個智能體的完整培訓數據,可用作 Python pickle 文件(用于使用我們框架訓練的智能體)和 JSON 數據文件(用于與受過其他框架訓練的智能體進行比較);我們還提供了一個網站,你可以在其中快速查看 60 個游戲中所有智能體的訓練運行情況。

下面展示我們在 Seaquest 上的 4 個代理的訓練情況,這是由 Arcade 學習環境支持的一種 Atari 2600 游戲。

在 Seaquest 上的 4 名智能體參加了訓練。x 軸表示迭代,其中每次迭代是 100 萬個游戲幀(4.5 小時的實時游戲);y 軸是每場比賽獲得的平均分數。陰影區域顯示的是來自 5 次獨立運行的置信區間。

我們還提供已經訓練好的深度網絡,原始統計日志以及用 Tensorboard 繪圖的 Tensorflow 事件文件。這些都可以在網站的下載部分找到。

希望我們框架的靈活性和易用性將使研究人員敢于嘗試新的想法,包括漸進式和激進式的想法。我們已經積極地將它用于我們的研究,并發現它能夠靈活且快速迭代許多想法。我們很高興可以為更大的社區做些貢獻。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Google
    +關注

    關注

    5

    文章

    1781

    瀏覽量

    58484
  • AI
    AI
    +關注

    關注

    87

    文章

    33443

    瀏覽量

    274016

原文標題:Google發布“多巴胺”開源強化學習框架,三大特性全滿足

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現

    本來轉自:DeepHubIMBA本文系統講解從基本強化學習方法到高級技術(如PPO、A3C、PlaNet等)的實現原理與編碼過程,旨在通過理論結合代碼的方式,構建對強化學習算法的全面理解。為確保內容
    的頭像 發表于 04-23 13:22 ?103次閱讀
    18個常用的<b class='flag-5'>強化學習</b>算法整理:從基礎方法到高級模型的理論技術與代碼實現

    詳解RAD端到端強化學習后訓練范式

    受限于算力和數據,大語言模型預訓練的 scalinglaw 已經趨近于極限。DeepSeekR1/OpenAl01通過強化學習后訓練涌現了強大的推理能力,掀起新一輪技術革新。
    的頭像 發表于 02-25 14:06 ?367次閱讀
    詳解RAD端到端<b class='flag-5'>強化學習</b>后訓練范式

    基于LMP91000在電化學傳感器電極故障檢測中的應用詳解

    分析,所選雙運放的特性應該同時滿足低失調電壓、小偏置電流、低功耗,很多時候同時滿足上述條件的雙運放型號非常有限。 由于電化學傳感器自身特點,在傳感器制造完成后通常需要金屬短路帽短接輸
    發表于 02-11 08:02

    HarmonyOS NEXT應用元服務開發Intents Kit(意圖框架服務)綜述

    ,準確且及時地獲取到用戶顯性、潛在意圖,從而實現個性化、多模態、精準的智慧分發。 、智慧分發 為方便開發者接入,智慧分發提供了多種特性類別,當前已開放習慣推薦、事件推薦、技能調用-語音、本地搜索,后續
    發表于 11-28 10:43

    螞蟻集團收購邊塞科技,吳翼出任強化學習實驗室首席科學家

    近日,專注于模型賽道的初創企業邊塞科技宣布被螞蟻集團收購。據悉,此次交易完成后,邊塞科技將保持獨立運營,而原投資人已全部退出。 與此同時,螞蟻集團近期宣布成立強化學習實驗室,旨在推動大模型強化學習
    的頭像 發表于 11-22 11:14 ?1185次閱讀

    卷積神經網絡的實現工具與框架

    : TensorFlow是由Google Brain團隊開發的開源機器學習框架,它支持多種深度學習模型的構建和訓練,包括卷積神經網絡。TensorFlow以其靈活性和可擴展性而聞名,適
    的頭像 發表于 11-15 15:20 ?532次閱讀

    Google AI Edge Torch的特性詳解

    我們很高興地發布 Google AI Edge Torch,可將 PyTorch 編寫的模型直接轉換成 TFLite 格式 (.tflite),且有著優異的模型覆蓋率和 CPU 性能。TFLite
    的頭像 發表于 11-06 10:48 ?715次閱讀
    <b class='flag-5'>Google</b> AI Edge Torch的<b class='flag-5'>特性</b>詳解

    如何使用 PyTorch 進行強化學習

    強化學習(Reinforcement Learning, RL)是一種機器學習方法,它通過與環境的交互來學習如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源機器學習庫,
    的頭像 發表于 11-05 17:34 ?746次閱讀

    RISC-V如何支持不同的AI和機器學習框架和庫?

    RISC-V如何支持不同的AI和機器學習框架和庫?還請壇友們多多指教一下。
    發表于 10-10 22:24

    谷歌AlphaChip強化學習工具發布,聯發科天璣芯片率先采用

    近日,谷歌在芯片設計領域取得了重要突破,詳細介紹了其用于芯片設計布局的強化學習方法,并將該模型命名為“AlphaChip”。據悉,AlphaChip有望顯著加速芯片布局規劃的設計流程,并幫助芯片在性能、功耗和面積方面實現更優表現。
    的頭像 發表于 09-30 16:16 ?595次閱讀

    PGA280的MUX配置是選擇路信號?

    我找遍PDF也不知道MUX配置是選擇路信號。比如說3'b000是選通兩路??
    發表于 09-12 07:08

    NVIDIA推出全新深度學習框架fVDB

    在 SIGGRAPH 上推出的全新深度學習框架可用于打造自動駕駛汽車、氣候科學和智慧城市的 AI 就緒型虛擬表示。
    的頭像 發表于 08-01 14:31 ?895次閱讀

    TensorFlow與PyTorch深度學習框架的比較與選擇

    學習框架,它們各自擁有獨特的特點和優勢。本文將從背景介紹、核心特性、操作步驟、性能對比以及選擇指南等方面對TensorFlow和PyTorch進行詳細比較,以幫助讀者了解這兩個框架的優
    的頭像 發表于 07-02 14:04 ?1380次閱讀

    使用google-translate和wwe合并后無法使用google-tts怎么解決?

    我打算使用lyrat-mini做一個使用喚醒詞喚醒然后后續通過google-sr和google-tts進行交流的聊天機器人,但是當我合并了adf的例子中的wwe和google-translate之后
    發表于 06-28 06:05

    通過強化學習策略進行特征選擇

    更快更好地學習。我們的想法是找到最優數量的特征和最有意義的特征。在本文中,我們將介紹并實現一種新的通過強化學習策略的特征選擇。我們先討論強化學習,尤其是馬爾可夫決策
    的頭像 發表于 06-05 08:27 ?541次閱讀
    通過<b class='flag-5'>強化學習</b>策略進行特征選擇
    主站蜘蛛池模板: 成人国内精品久久久久影院 | 狠狠色丁香婷婷综合最新地址 | 亚洲五月婷 | 黄在线观看在线播放720p | 日本动漫在线看 | 天天天天天天天操 | 欧美一区二区三区免费 | 欧美黄色录象 | 日本三级理论 | 三级在线网站 | 亚洲第一看片 | 国产黄色a三级三级三级 | 夜夜五月天 | 久久免费香蕉视频 | 久久久午夜 | 久久青草免费免费91线频观看 | 四虎在线最新永久免费 | a级男女性高爱潮高清试 | 韩国a级床戏大尺度在线观看 | 日韩毛片高清免费 | 午夜影院在线观看视频 | 免费a网址| 色多多网| 天天操天天插天天干 | 波多野结衣在线观看一区二区三区 | 日韩成人午夜 | 视色4setv.com | 久久国产精品网 | 色五月情| 性生生活三级视频在线观看 | 免费国产一区 | 久久精品国产免费高清 | 一本高清在线 | 老司机精品免费视频 | 一级特级毛片免费 | 婷婷久久综合九色综合九七 | 免费一级毛片不卡在线播放 | 六月婷婷视频 | 亚洲午夜在线观看 | h网站在线看 | 色老头免费视频 |