在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌推出新的基于Tensorflow的強化學習框架,稱為Dopamine

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-08-31 09:20 ? 次閱讀

今天,谷歌宣布推出一個新的基于Tensorflow的強化學習框架,稱為Dopamine,旨在為強化學習研究人員提供靈活性、穩定性和可重復性。這個強大的新框架或將推動強化學習研究取得根本性的新突破。

最近OpenAI在Dota 2上的表現,讓強化學習又大大地火了一把,但是OpenAI的強化學習訓練環境OpenAI Gym卻一直遭到不少抱怨,比如不太穩定、更新沒有及時……

今天,谷歌宣布開源基于TensorFlow的強化學習框架——Dopamine,代碼現在就能在Github查看。

谷歌研究人員表示,他們開源的這個TensorFlow強化學習框架強調三點:靈活、穩定和可重復性(reproducibility)。

為此,配套開源的還包括一個專用于視頻游戲訓練結果的平臺,以及四種不同的機器學習模型:DQN、C51、簡化版的Rainbow智能體和IQN(Implicit Quantile Network)。

為了實現可重復性,Github代碼包括Arcade Learning Environment支持的全部60個游戲的完整測試和訓練代碼,并遵循標準化經驗評估結果的最佳實踐。

除了開源這個增強學習框架,谷歌還推出了一個網站,允許開發人員將多個訓練中智能體的運行情況快速可視化。其他還有訓練好的模型、原始統計日志和TensorFlow event files,用于TensorBoard動態圖的繪制。

Dopamine框架:靈感來自大腦的多巴胺受體

強化學習(RL)研究在過去幾年取得了許多重大進展。強化學習的進步使得AI智能體能夠在一些游戲上超過人類,值得關注的例子包括DeepMind攻破Atari游戲的DQN,在圍棋中獲得矚目的AlphaGo和AlphaGo Zero,以及在Dota2對戰人類職業玩家的Open AI Five。

具體來說,在DQN中引入重放記憶(replay memories)可以利用先前agent的經驗,大規模的分布式訓練可以在多個workers之間分配學習過程,分布式的方法允許agent建模完整的分布,而不僅僅是建模它們的期望值,從而能夠學習更完整的世界。

這類進展非常重要,因為產生這些進展的算法也適用于其他領域,例如機器人技術。

通常,實現這類進展需要快速的迭代設計——通常沒有明確的方向——并破壞既定方法的結構。然而,大多數現有的RL框架不能同時提供靈活性和穩定性,研究人員難以有效地迭代RL方法,進而探索新的研究方向,雖然這些新研究方向可能不會立即帶來明顯的好處。此外,從現有框架中復制結果常常太耗時,這可能導致后續的科學再現性問題。

今天,谷歌宣布推出一個新的基于Tensorflow的框架,稱為Dopamine,旨在為RL研究人員提供靈活性、穩定性和可重復性。

這個平臺的靈感來自于大腦中獎勵動機行為的主要組成部分之一(多巴胺受體,dopamine receptor),這反映了神經科學和強化學習研究之間強大的歷史聯系,它的目的是使這種推測性的研究能夠推動根本性的發現。開源框架還包含一組colabs,說明如何使用這個框架。

易用性

清晰和簡潔是這個框架設計中的兩個關鍵考慮因素。谷歌提供了緊湊的代碼(大約15個Python files),并且有詳細的文檔記錄。這是通過專注于Arcade Learning環境(一個成熟的、易于理解的baseline)和4個value-based的agent來實現的,分別是:DQN, C51,Rainbow agent的一個簡化版本,以及Implicit Quantile Network agent,這是上個月剛在ICML大會上發表的。這種簡單性能幫助研究人員更容易理解agent的內部工作原理,并快速嘗試新的想法。

可重復性

谷歌尤其重視強化學習研究的可重復性(reproducibility)。他們為代碼提供了完整的測試覆蓋率;這些測試還可以作為文檔的附加形式。此外,他們的實驗框架遵循Machado et al. (2018)給出的建議,使用街機學習環境(Arcade Learning Environment)進行標準化經驗評估。

基準測試

對于新的研究人員來說,能夠快速地將他們的想法與已有的方法進行對比是很重要的。因此,我們在Arcade Learning Environment支持的60款游戲中提供了4個agent的完整訓練數據,這些數據可以作為Python pickle文件(用于通過我們的框架訓練的agent)和JSON數據文件(用于與在其他框架中訓練的agent進行比較);此外,谷歌還開放了一個網站,在上面可以快速地查看所有60款游戲提供的agent的可視化訓練運行。

下圖是4個agent在Seaquest上的訓練,這是Arcade Learning Environment支持的Atari 2600游戲之一。

在Seaquest上,4個agent進行了訓練。x軸表示迭代,其中每次迭代是100萬幀(4.5小時的實時游戲); y軸表示每場游戲獲得的平均分數。陰影區域顯示了5次獨立運行的置信區間。

谷歌還提供了來自這些agent的訓練好的深度網絡、原始統計日志以及用于使用Tensorboard繪圖的Tensorflow事件文件。這些都可以在官網下載。

開源獲取地址:

https://github.com/google/dopamine

其他主要強化學習框架

OpenAI Gym

2016 年 4 月 28 日,OpenAI 對外發布了強化學習開發平臺 OpenAI Gym。Gym 平臺的基本理念是,研究者建立自己的算法后,可以把該算法置于不同的環境中進行測試,然后把測試后的基本算法發布在 Gym 的平臺上,讓社區中的其他人看到。該平臺現在已經與一些開放資源人工智能工具,例如谷歌的 TensorFlow 展開合作。

在OpenAI Gym上訓練強化學習agent

OpenAI Gym 是一款用于研發和比較強化學習算法的工具包,它支持訓練智能體(agent)做任何事——從行走到玩Pong或圍棋之類的游戲,都在范圍中。

OpenAI Universe

2016 年 12 月,OpenAI發布 OpenAI Universe。 根據其官方博客的介紹,這是一個能在幾乎所有環境中衡量和訓練 AI 通用智能水平的開源平臺,當下的目標是讓 AI 智能體能像人一樣使用計算機。目前,Universe 已經有 1000 種訓練環境,由微軟、英偉達等公司參與建設。

Universe AI訓練平臺

Universe 通過一個通用的接口適用于各種場景:智能體通過捕捉屏幕的像素生成對鍵盤和鼠標的命令來操作遠程桌面。場景需要 VNC 服務器,universe 庫將智能體轉換為 VNC 客戶端。

OpenAI Gym Retro

這是OpenAI開源的用于游戲研究的完整版強化學習平臺 Gym Retro,支持的游戲從大約 70 多個Atari游戲和 30 多個世嘉游戲擴展到各種仿真器支持的 1000 多個游戲。

Gym Retro支持1000多個游戲

Gym Retro 用于研究強化學習算法及其泛化。RL 之前的研究主要集中在優化 Agent 解決單個任務上。通過 Gym Retro,我們可以研究內部概念相似但外觀表現不同的游戲之間泛化的能力。

DeepMind Lab

就在OpenAI 剛剛宣布開源 Universe平臺后,DeepMind 也宣布將其 AI 核心平臺 DeepMind Lab 開源。該平臺將幾個不同的 AI 研究領域整合至一個環境下,方便研究人員測試 AI 智能體的導航、記憶和 3D 成像等能力。

DeepMind Lab

DeepMind Lab 是一個專為基于智能體的 AI 研究設計的,完全像 3D 游戲般的平臺。它從自己的視角,通過模擬智能體的眼睛進行觀察。場景呈現的視覺效果是科幻風格??捎玫牟僮髂茏屩悄荏w環顧四周,并且以 3D 的形式移動。示例任務包括收集水果、走迷宮、穿越危險的通道且要避免從懸崖上墜落、使用發射臺在平臺間穿越、玩激光筆、以及快速學習并記住隨機生成的環境。

阿里Gym StarCraft

阿里去年開源了針對星際AI的研究平臺Gym StarCraft。在 Gym StarCraft 中,AI 和強化學習研究者可以非常方便地使用 Python 語言來進行深度強化學習智能 Agent 的開發,它底層完成了對 TorchCraft 和 OpenAI Gym 的封裝,支持基于 TensorFlow 和 Keras 等主流算法框架進行開發,僅需幾十行代碼即可完成一個基本的智能 Agent 的開發。

同時,為了便于評測智能 Agent 的有效性,Gym StarCraft 被集成在了 OpenAI Gym 這一主流的強化學習 AI 評測平臺中,支持世界各地的星際 AI 研究者基于它去進行公平、快捷的效果評估。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6219

    瀏覽量

    107188
  • 強化學習
    +關注

    關注

    4

    文章

    269

    瀏覽量

    11478

原文標題:谷歌用“多巴胺”懟上OpenAI,開源TensorFlow強化學習框架

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現

    本來轉自:DeepHubIMBA本文系統講解從基本強化學習方法到高級技術(如PPO、A3C、PlaNet等)的實現原理與編碼過程,旨在通過理論結合代碼的方式,構建對強化學習算法的全面理解。為確保內容
    的頭像 發表于 04-23 13:22 ?168次閱讀
    18個常用的<b class='flag-5'>強化學習</b>算法整理:從基礎方法到高級模型的理論技術與代碼實現

    詳解RAD端到端強化學習后訓練范式

    受限于算力和數據,大語言模型預訓練的 scalinglaw 已經趨近于極限。DeepSeekR1/OpenAl01通過強化學習后訓練涌現了強大的推理能力,掀起新一輪技術革新。
    的頭像 發表于 02-25 14:06 ?388次閱讀
    詳解RAD端到端<b class='flag-5'>強化學習</b>后訓練范式

    螞蟻集團收購邊塞科技,吳翼出任強化學習實驗室首席科學家

    近日,專注于模型賽道的初創企業邊塞科技宣布被螞蟻集團收購。據悉,此次交易完成后,邊塞科技將保持獨立運營,而原投資人已全部退出。 與此同時,螞蟻集團近期宣布成立強化學習實驗室,旨在推動大模型強化學習
    的頭像 發表于 11-22 11:14 ?1209次閱讀

    卷積神經網絡的實現工具與框架

    卷積神經網絡因其在圖像和視頻處理任務中的卓越性能而廣受歡迎。隨著深度學習技術的快速發展,多種實現工具和框架應運而生,為研究人員和開發者提供了強大的支持。 TensorFlow 概述
    的頭像 發表于 11-15 15:20 ?543次閱讀

    如何使用 PyTorch 進行強化學習

    強化學習(Reinforcement Learning, RL)是一種機器學習方法,它通過與環境的交互來學習如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源機器學習庫,
    的頭像 發表于 11-05 17:34 ?768次閱讀

    谷歌AlphaChip強化學習工具發布,聯發科天璣芯片率先采用

    近日,谷歌在芯片設計領域取得了重要突破,詳細介紹了其用于芯片設計布局的強化學習方法,并將該模型命名為“AlphaChip”。據悉,AlphaChip有望顯著加速芯片布局規劃的設計流程,并幫助芯片在性能、功耗和面積方面實現更優表現。
    的頭像 發表于 09-30 16:16 ?602次閱讀

    谷歌推出新款電視盒子Google TV Streamer

    據多方媒體報道,谷歌近日推出新款電視盒——Google TV Streamer。相較前幾代Chromecast電視棒,此次新品體積更大、外觀更為搶眼,且不再隱藏在電視I/O面板下方。
    的頭像 發表于 08-07 17:18 ?1368次閱讀

    NVIDIA推出全新深度學習框架fVDB

    在 SIGGRAPH 上推出的全新深度學習框架可用于打造自動駕駛汽車、氣候科學和智慧城市的 AI 就緒型虛擬表示。
    的頭像 發表于 08-01 14:31 ?911次閱讀

    TensorFlow是什么?TensorFlow怎么用?

    TensorFlow是由Google開發的一個開源深度學習框架,它允許開發者方便地構建、訓練和部署各種復雜的機器學習模型。TensorFlow
    的頭像 發表于 07-12 16:38 ?1092次閱讀

    tensorflow和pytorch哪個更簡單?

    TensorFlow和PyTorch都是用于深度學習和機器學習的開源框架。TensorFlow由Google Brain團隊開發,而Py
    的頭像 發表于 07-05 09:45 ?1272次閱讀

    tensorflow和pytorch哪個好

    tensorflow和pytorch都是非常不錯的強大的框架TensorFlow還是PyTorch哪個更好取決于您的具體需求,以下是關于這兩個框架的一些關鍵點:
    的頭像 發表于 07-05 09:42 ?1008次閱讀

    keras模型轉tensorflow session

    和訓練深度學習模型。Keras是基于TensorFlow、Theano或CNTK等底層計算框架構建的。TensorFlow是一個開源的機器學習
    的頭像 發表于 07-05 09:36 ?745次閱讀

    TensorFlow的定義和使用方法

    TensorFlow是一個由谷歌人工智能團隊谷歌大腦(Google Brain)開發和維護的開源機器學習庫。它基于數據流編程(dataflow programming)的概念,將復雜的
    的頭像 發表于 07-02 14:14 ?1218次閱讀

    TensorFlow與PyTorch深度學習框架的比較與選擇

    深度學習作為人工智能領域的一個重要分支,在過去十年中取得了顯著的進展。在構建和訓練深度學習模型的過程中,深度學習框架扮演著至關重要的角色。Tenso
    的頭像 發表于 07-02 14:04 ?1400次閱讀

    通過強化學習策略進行特征選擇

    更快更好地學習。我們的想法是找到最優數量的特征和最有意義的特征。在本文中,我們將介紹并實現一種新的通過強化學習策略的特征選擇。我們先討論強化學習,尤其是馬爾可夫決策
    的頭像 發表于 06-05 08:27 ?549次閱讀
    通過<b class='flag-5'>強化學習</b>策略進行特征選擇
    主站蜘蛛池模板: 免费在线观看一级片 | 久久精品亚洲青青草原 | 特级无码毛片免费视频尤物 | 欧美特黄视频在线观看 | 日本s色大片在线观看 | 国内久久精品 | 免费日本视频 | 与子乱刺激对白在线播放 | 亚洲视频在线观看一区 | 色偷偷视频 | 日日干天天操 | 电源天堂 | 色多多在线观看高清免费 | 天天插日日插 | 手机看片国产精品 | 久久精品男人的天堂 | 666夜色666夜色国产免费看 | 91极品女神私人尤物在线播放 | 天堂视频在线视频观看2018 | 一级特黄特黄的大片免费 | 色视频在线网站 | 波多野结衣在线一区 | 精品国产第一国产综合精品gif | 天天好比网 | a网站免费| 久久亚洲国产欧洲精品一 | 亚洲一二三区在线观看 | 91大神在线精品网址 | 天天宗合网 | 春宵福利网站 | 日本三级黄视频 | 国产日本三级 | 国产午夜精品视频 | 禁漫羞羞a漫入口 | 亚洲一级毛片免观看 | 免费视频爱爱 | 婷婷六月丁香午夜爱爱 | 午夜精品久久久 | 一级毛片真人免费播放视频 | 色偷偷资源网 | 在线观看永久免费视频网站 |