在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI公布MADDPG代碼,讓智能體學(xué)習(xí)合作、競(jìng)爭(zhēng)和交流

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李建兵 ? 2018-03-16 14:01 ? 次閱讀

智能體(agent)互相爭(zhēng)奪資源的多智能體環(huán)境是通向強(qiáng)人工智能(AGI)的必經(jīng)之路。多智能體環(huán)境具有兩種優(yōu)越的特質(zhì):首先,它具備自然的考驗(yàn)——環(huán)境的難易程度取決于競(jìng)爭(zhēng)對(duì)手的技能(如果你正與自己的克隆體對(duì)抗,環(huán)境則完全符合你的技術(shù)水平)。其次,多智能體環(huán)境沒(méi)有穩(wěn)定的平衡,即無(wú)論一個(gè)智能體多么聰明,想變得更聰明總是有困難的。這種環(huán)境與傳統(tǒng)模式有很大的不同,在達(dá)到目標(biāo)之前需要進(jìn)行更多研究。

OpenAI開(kāi)發(fā)了一種名為MADDPG(Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments)的新算法,用于實(shí)現(xiàn)多智能體環(huán)境中的集中式學(xué)習(xí)和分散式執(zhí)行,讓智能體學(xué)習(xí)互相合作、互相競(jìng)爭(zhēng)。

用MADDPG算法訓(xùn)練四個(gè)紅色圓點(diǎn)追逐兩個(gè)綠色圓點(diǎn),紅色圓點(diǎn)已經(jīng)學(xué)會(huì)彼此合作追逐同一個(gè)綠色圓點(diǎn),以獲得更高的獎(jiǎng)勵(lì)。與此同時(shí),綠色圓點(diǎn)學(xué)會(huì)了“分頭行動(dòng)”,其中一個(gè)被紅點(diǎn)追逐,其他的則試圖接近藍(lán)色圓點(diǎn)獲得獎(jiǎng)勵(lì),同時(shí)避開(kāi)紅色圓點(diǎn)

MADDPG對(duì)強(qiáng)化學(xué)習(xí)算法DDPG進(jìn)行擴(kuò)展,從actor-critic(玩家-評(píng)委)強(qiáng)化學(xué)習(xí)技術(shù)中獲得靈感;其他團(tuán)隊(duì)也正探索這些想法的變體和并行實(shí)現(xiàn)。

研究人員將模擬中的每個(gè)智能體看作“actor”(玩家),每個(gè)玩家從評(píng)委那里獲得建議,讓它們?cè)谟?xùn)練過(guò)程中選擇應(yīng)該加強(qiáng)哪些動(dòng)作的訓(xùn)練。在傳統(tǒng)環(huán)境中,評(píng)委嘗試預(yù)測(cè)在某一特定情況下一種動(dòng)作的價(jià)值(即我們期待未來(lái)獲得的獎(jiǎng)勵(lì)),從而讓玩家更新策略。這種方法比直接使用獎(jiǎng)勵(lì)更穩(wěn)定,獎(jiǎng)勵(lì)會(huì)導(dǎo)致較大的差異。為了能讓智能體進(jìn)行全局合作,研究者改進(jìn)了評(píng)委,使它們能夠訪(fǎng)問(wèn)智能體的觀察和行動(dòng),如下圖所示。

測(cè)試時(shí),智能體無(wú)需具備中間的評(píng)委;它們根據(jù)觀察以及對(duì)其他智能體行為的預(yù)測(cè),做出動(dòng)作。由于一個(gè)中心化的評(píng)委是為每個(gè)智能體獨(dú)立學(xué)習(xí)的,這種方法也可以用來(lái)模擬多智能體之間的任意獎(jiǎng)勵(lì)結(jié)構(gòu),包括擁有相反獎(jiǎng)勵(lì)的對(duì)抗案例。

OpenAI研究者在多個(gè)任務(wù)上測(cè)試了他們的方法,結(jié)果均優(yōu)于DDPG上的表現(xiàn)。在上圖的動(dòng)畫(huà)中,從上至下可以看到:兩個(gè)智能體試圖前往特定位置,并且學(xué)習(xí)分散,向?qū)κ蛛[藏真實(shí)的目的地;一個(gè)智能體將位置信息傳遞給另一個(gè)智能體,其他三個(gè)智能體協(xié)調(diào)前往此處,并且不會(huì)碰撞。

使用MADDPG訓(xùn)練的紅色圓點(diǎn)比用DDPG訓(xùn)練的智能體行為更復(fù)雜。在上面的動(dòng)畫(huà)中可以看到,用MADDPG技術(shù)訓(xùn)練的智能體和用DDPG訓(xùn)練的智能體都試圖穿過(guò)綠色的圓圈追逐綠色的小圓點(diǎn),同時(shí)不撞到黑色障礙物。新方法訓(xùn)練出來(lái)的智能體抓到的綠色圓點(diǎn)更多,也比用DDPG方法訓(xùn)練出的動(dòng)作更協(xié)調(diào)。

傳統(tǒng)強(qiáng)化學(xué)習(xí)的困境

傳統(tǒng)的分散式強(qiáng)化學(xué)習(xí)方法,如DDPG、actor-critic學(xué)習(xí)、深度Q學(xué)習(xí)等,都難以在多智能體環(huán)境中學(xué)習(xí),因?yàn)樵诿總€(gè)時(shí)間段,每個(gè)智能體都要嘗試學(xué)習(xí)預(yù)測(cè)其他智能體的行為,同時(shí)還要分析自己的行為。在競(jìng)爭(zhēng)的情況下尤其如此。MADDPG采用集中的critic為智能體提供有關(guān)同類(lèi)的觀察和潛在行為的信息,將不可預(yù)測(cè)的環(huán)境轉(zhuǎn)化為可預(yù)測(cè)環(huán)境。

使用梯度策略的方法會(huì)帶來(lái)更多挑戰(zhàn):因?yàn)楫?dāng)獎(jiǎng)勵(lì)不一致時(shí),這種方法所得到的結(jié)果差別很大。另外,在提高穩(wěn)定性的同時(shí),增加critic仍然不能解決一些環(huán)境問(wèn)題,例如合作交流。這樣看來(lái)在培訓(xùn)期間考慮其他智能體的行為對(duì)于學(xué)習(xí)協(xié)作策略是很重要的。

最初的研究

在開(kāi)發(fā)MADDPG之前,當(dāng)使用分散技術(shù)時(shí),研究人員注意到如果speaker所發(fā)出的關(guān)于去哪里不一致的消息,那么listener常常會(huì)忽略speaker,智能體將把有關(guān)speaker的所有權(quán)中設(shè)置為0。一旦發(fā)生這種情況,就很難恢復(fù)訓(xùn)練,因?yàn)闆](méi)有任何反饋,speaker永遠(yuǎn)不會(huì)知道自己所說(shuō)是否正確。為了解決這個(gè)問(wèn)題,他們研究了最近一個(gè)分層強(qiáng)化學(xué)習(xí)項(xiàng)目中所提到的技術(shù),該技術(shù)可以讓強(qiáng)制讓listener在決策過(guò)程中考慮speaker的消息。這種修復(fù)方法并不奏效,因?yàn)樗m然強(qiáng)制listener關(guān)注speaker,但并不能幫助listener決定說(shuō)出什么相關(guān)的內(nèi)容。通過(guò)幫助speaker學(xué)習(xí)哪些信息可能與其他智能體的位置信息有關(guān),集中式的critic方法有助于應(yīng)對(duì)這些挑戰(zhàn)。想了解更多結(jié)果,可點(diǎn)擊視頻觀看:

下一步

智能體建模在人工智能的研究中已經(jīng)有了豐富的成果,但之前的很多研究都只考慮了短時(shí)間內(nèi)簡(jiǎn)單的游戲。深度學(xué)習(xí)能讓我們處理復(fù)雜的視覺(jué)輸入,強(qiáng)化學(xué)習(xí)為我們提供了長(zhǎng)時(shí)間學(xué)習(xí)行為的工具。現(xiàn)在我們可以用這些功能一次性訓(xùn)練多個(gè)代理,而無(wú)需了解環(huán)境的變化(即環(huán)境在每個(gè)時(shí)間段發(fā)生的變化),我們可以解決更廣泛的包括交流和語(yǔ)言的高維度信息,同時(shí)從環(huán)境的高維信息中學(xué)習(xí)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    34560

    瀏覽量

    276116

原文標(biāo)題:OpenAI公布MADDPG代碼,讓智能體學(xué)習(xí)合作、競(jìng)爭(zhēng)和交流

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    學(xué)習(xí)智能開(kāi)發(fā)

    智能是大模型的應(yīng)用落地,正在學(xué)習(xí)中,這本書(shū)太及時(shí)了,非常想看看。
    發(fā)表于 03-27 15:48

    云電云安“智能”領(lǐng)跑安防行業(yè)

      隨著安防逐漸IT化及國(guó)內(nèi)安防廠商精工制造的崛起,產(chǎn)品的互聯(lián)互通及產(chǎn)品的工業(yè)設(shè)計(jì)逐漸成為市場(chǎng)競(jìng)爭(zhēng)的重頭戲。2015年伊始,云電信息在市場(chǎng)提出“智能”的新主張,作為行業(yè)的領(lǐng)先者,在“智能
    發(fā)表于 03-30 11:35

    一種基于聚類(lèi)和競(jìng)爭(zhēng)克隆機(jī)制的多智能免疫算法

    包含分布式電源的配電網(wǎng)無(wú)功優(yōu)化matlab源代碼代碼按照高水平文章復(fù)現(xiàn),保證正確,可先發(fā)您文章看是否滿(mǎn)足您的要求利用分布式電源的無(wú)功補(bǔ)償能力,提出了一種基于聚類(lèi)和競(jìng)爭(zhēng)克隆機(jī)制的多智能
    發(fā)表于 12-29 06:50

    OpenAI分析機(jī)器學(xué)習(xí)的進(jìn)化策略

    OpenAI總監(jiān)Ilya Sutskever昨天在EmTech Digital大會(huì)上介紹了人工智能領(lǐng)域下一個(gè)可能的爆發(fā)點(diǎn)。OpenAI是一家獨(dú)立研究機(jī)構(gòu),EmTech Digital是MIT
    發(fā)表于 09-30 13:09 ?0次下載

    基于強(qiáng)化學(xué)習(xí)MADDPG算法原理及實(shí)現(xiàn)

    之前接觸的強(qiáng)化學(xué)習(xí)算法都是單個(gè)智能的強(qiáng)化學(xué)習(xí)算法,但是也有很多重要的應(yīng)用場(chǎng)景牽涉到多個(gè)智能
    的頭像 發(fā)表于 11-02 16:18 ?2.2w次閱讀

    OpenAI與新聞集團(tuán)簽署內(nèi)容合作協(xié)議

    人工智能領(lǐng)域的領(lǐng)軍企業(yè)OpenAI近日宣布,已與美國(guó)傳媒巨頭新聞集團(tuán)(News Corp)達(dá)成多年全球合作伙伴關(guān)系。
    的頭像 發(fā)表于 05-24 09:45 ?596次閱讀

    蘋(píng)果與OpenAI自2023年中開(kāi)始接觸,微軟擔(dān)心合作競(jìng)爭(zhēng)

    據(jù)悉,蘋(píng)果有意在定于今年6月11日凌晨1點(diǎn)舉行的WWDC 2024全球開(kāi)發(fā)者大會(huì)上公開(kāi)與OpenAI合作事宜。此外,除了計(jì)劃引入OpenAI的ChatGPT聊天服務(wù)至iOS外,蘋(píng)果并借機(jī)邀請(qǐng)
    的頭像 發(fā)表于 05-30 10:18 ?769次閱讀

    蘋(píng)果宣布與OpenAI構(gòu)建合作伙伴關(guān)系

    近日,蘋(píng)果公司宣布與人工智能領(lǐng)域的領(lǐng)軍企業(yè)OpenAI達(dá)成合作伙伴關(guān)系,計(jì)劃將OpenAI的ChatGPT技術(shù)整合至其產(chǎn)品中。
    的頭像 發(fā)表于 06-12 16:15 ?1030次閱讀

    歐盟加強(qiáng)對(duì)人工智能行業(yè)審查,微軟與OpenAI合作受關(guān)注

    在人工智能(AI)領(lǐng)域日益激烈的競(jìng)爭(zhēng)中,歐盟正展現(xiàn)出其加強(qiáng)監(jiān)管的決心。6月29日,美聯(lián)社報(bào)道指出,歐盟高級(jí)官員近期已明確表示,他們正在重新審視這一領(lǐng)域的多項(xiàng)合作關(guān)系,特別是微軟與OpenAI
    的頭像 發(fā)表于 06-29 16:46 ?771次閱讀

    OpenAI公布2025年目標(biāo),AGI位列首位

    ,Altman正式公布OpenAI的2025年目標(biāo)清單。其中,通用人工智能(AGI)的開(kāi)發(fā)被置于首要位置,這體現(xiàn)了OpenAI對(duì)于實(shí)現(xiàn)真正智能
    的頭像 發(fā)表于 01-02 11:03 ?774次閱讀

    OpenAI公布2025年發(fā)展目標(biāo)

    OpenAI的首席執(zhí)行官Sam Altman近日在社交媒體上公布了公司2025年的發(fā)展目標(biāo)。這些目標(biāo)不僅反映了OpenAI對(duì)未來(lái)的展望,也體現(xiàn)了其致力于推動(dòng)人工智能領(lǐng)域發(fā)展的決心。 在
    的頭像 發(fā)表于 01-03 10:40 ?596次閱讀

    OpenAI將發(fā)布更智能GPT模型及AI智能工具

    OpenAI近日透露了其未來(lái)發(fā)展的重要?jiǎng)酉颉?jù)OpenAI首席產(chǎn)品官凱文·維爾(Kevin Weil)介紹,公司計(jì)劃推出更智能的GPT o3模型,并首次亮相AI智能
    的頭像 發(fā)表于 01-24 13:54 ?518次閱讀

    OpenAI發(fā)布深度研究智能功能

    近日,OpenAI正式推出了面向深度研究領(lǐng)域的智能產(chǎn)品——深度研究(Deep Research)功能。這一創(chuàng)新功能旨在支持多領(lǐng)域的高強(qiáng)度知識(shí)工作者,提升他們的工作效率和研究質(zhì)量。 深度研究功能由
    的頭像 發(fā)表于 02-05 15:05 ?503次閱讀

    OpenAI對(duì)DeepSeek持開(kāi)放競(jìng)爭(zhēng)態(tài)度

    近日,OpenAI首席執(zhí)行官奧爾特曼在一次公開(kāi)場(chǎng)合明確表示,OpenAI不會(huì)對(duì)中國(guó)AI初創(chuàng)企業(yè)杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司(簡(jiǎn)稱(chēng)DeepSeek)采取法律訴訟行動(dòng)。 奧爾特曼在表態(tài)中強(qiáng)調(diào)
    的頭像 發(fā)表于 02-05 15:29 ?551次閱讀

    Figure AI宣布終止與OpenAI合作,專(zhuān)注內(nèi)部研發(fā)

    近日,人形機(jī)器人領(lǐng)域的獨(dú)角獸企業(yè)Figure AI宣布了一個(gè)重要決定:因已取得“重大突破”,將終止與OpenAI合作,并專(zhuān)注于內(nèi)部人工智能技術(shù)的研發(fā)。這一決定距離Figure AI宣布
    的頭像 發(fā)表于 02-06 14:33 ?589次閱讀
    主站蜘蛛池模板: 欧美在线视频7777kkkk | 四虎影院最新 | 精品视频一区二区三区 | 欧美午夜色视频国产精品 | 日韩毛片大全 | 久久草在线看 | 日韩中文字幕第一页 | 视频一区二区三区在线观看 | 中国美女一级黄色片 | 一区国产传媒国产精品 | 五月天激激婷婷大综合丁香 | 天堂资源在线bt种子8 | 免费澳门一级毛片 | 男女性生动态免费视频 | 中国一级特黄高清免费的大片 | 国产伦精品一区二区三区高清 | 成 年 人 视频在线播放 | 亚洲色图21p | 国产免费好大好硬视频 | 午夜两性色视频免费网站 | 亚洲欧洲一区二区三区在线 | 亚洲成在线观看 | 5151四虎永久在线精品免费 | 天天槽天天槽天天槽 | 亚洲美女视频一区 | 台湾佬自偷自拍情侣在线 | 激情综合激情五月 | 色视频在线免费 | 国产在线视频你懂的 | 精品成人在线 | 宅男666在线永久免费观看 | 亚洲成人高清在线观看 | 伊人9| 永久手机看片福利盒子 | 欧美另类69 | 色婷婷综合久久久久中文一区二区 | 日本福利网址 | 亚洲综合香蕉 | 明日花绮罗snis-862在线播放 | 天堂bt资源在线官网 | 色天使亚洲综合在线观看 |