在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MoDem解決了視覺(jué)強(qiáng)化學(xué)習(xí)領(lǐng)域的三個(gè)挑戰(zhàn)

OpenCV學(xué)堂 ? 來(lái)源:新智元 ? 2023-01-05 11:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【導(dǎo)讀】MetaAI這次發(fā)布的MoDem解決了視覺(jué)強(qiáng)化學(xué)習(xí)領(lǐng)域的三個(gè)挑戰(zhàn),無(wú)需解碼器,效率最高提升250%,一起看看它有多牛。

12月27日,MetaAI 負(fù)責(zé)視覺(jué)和強(qiáng)化學(xué)習(xí)領(lǐng)域的A

eaf4d14c-8c5e-11ed-bfe3-dac502259ad0.png

截止27日晚間,這篇推文的閱讀量已經(jīng)達(dá)到73.9k。

eafc10a6-8c5e-11ed-bfe3-dac502259ad0.png

他表示,僅給出5個(gè)演示,MoDem就能在100K交互步驟中解決具有稀疏獎(jiǎng)勵(lì)和高維動(dòng)作空間的具有挑戰(zhàn)性的視覺(jué)運(yùn)動(dòng)控制任務(wù),大大優(yōu)于現(xiàn)有的最先進(jìn)方法。

有多優(yōu)秀呢?

他們發(fā)現(xiàn)MoDem在完成稀疏獎(jiǎng)勵(lì)任務(wù)方面的成功率比低數(shù)據(jù)機(jī)制中的先前方法高出150%-250%。

eb0169a2-8c5e-11ed-bfe3-dac502259ad0.png

Lecun也轉(zhuǎn)發(fā)了這一研究,表示MoDem的模型架構(gòu)類(lèi)似于JEPA,可在表征空間做出預(yù)測(cè)且無(wú)需解碼器。

eb0df6c2-8c5e-11ed-bfe3-dac502259ad0.png

鏈接小編就放在下面啦,有興趣的小伙伴可以看看~

eb17ae42-8c5e-11ed-bfe3-dac502259ad0.png

論文鏈接:https://arxiv.org/abs/2212.05698

Github鏈接:https://github.com/facebookresearch/modem

研究創(chuàng)新和模型架構(gòu)

樣本效率低下是實(shí)際應(yīng)用部署深度強(qiáng)化學(xué)習(xí) (RL) 算法的主要挑戰(zhàn),尤其是視覺(jué)運(yùn)動(dòng)控制。

基于模型的RL有可能通過(guò)同時(shí)學(xué)習(xí)世界模型并使用合成部署來(lái)進(jìn)行規(guī)劃和政策改進(jìn),從而實(shí)現(xiàn)高樣本效率。

然而在實(shí)踐中,基于模型的RL的樣本高效學(xué)習(xí)受到探索挑戰(zhàn)的瓶頸,這次研究恰恰解決了這些主要挑戰(zhàn)。

首先,MoDem分別通過(guò)使用世界模型、模仿+RL和自監(jiān)督視覺(jué)預(yù)訓(xùn)練,解決了視覺(jué)強(qiáng)化學(xué)習(xí)/控制領(lǐng)域的三個(gè)主要挑戰(zhàn):

大樣本復(fù)雜性(Large sample complexity)

高維狀態(tài)和動(dòng)作空間探索(Exploration in high-dimensional state and action space)

同步視覺(jué)表征和行為學(xué)習(xí)(Simultaneous learning of visual representations and behaviors)

eb22ced0-8c5e-11ed-bfe3-dac502259ad0.png

這次的模型架構(gòu)類(lèi)似于Yann LeCun的JEPA,并且無(wú)需解碼器。

作者Aravind Rajeswaran表示,相比Dreamer需要像素級(jí)預(yù)測(cè)的解碼器,架構(gòu)繁重,無(wú)解碼器架構(gòu)可支持直接插入使用SSL預(yù)訓(xùn)練的視覺(jué)表示。

eb2abf6e-8c5e-11ed-bfe3-dac502259ad0.png

此外基于IL+RL,他們提出了一個(gè)三階段算法:

BC預(yù)訓(xùn)練策略

使用包含演示和探索的種子數(shù)據(jù)集預(yù)訓(xùn)練世界模型,此階段對(duì)于整體穩(wěn)定性和效率很重要

通過(guò)在線互動(dòng)微調(diào)世界模型

eb34d1b6-8c5e-11ed-bfe3-dac502259ad0.png

結(jié)果顯示,生成的算法在21個(gè)硬視覺(jué)運(yùn)動(dòng)控制任務(wù)中取得了SOTA結(jié)果(State-Of-The-Art result),包括Adroit靈巧操作、MetaWorld和DeepMind控制套件。

從數(shù)據(jù)上來(lái)看,MoDem在各項(xiàng)任務(wù)中的表現(xiàn)遠(yuǎn)遠(yuǎn)優(yōu)于其他模型,結(jié)果比之前的SOTA方法提升了150%到250%。

eb3f2a3a-8c5e-11ed-bfe3-dac502259ad0.png

紅色線條為MoDem在各項(xiàng)任務(wù)中的表現(xiàn)

在此過(guò)程中,他們還闡明了MoDem中不同階段的重要性、數(shù)據(jù)增強(qiáng)對(duì)視覺(jué)MBRL的重要性以及預(yù)訓(xùn)練視覺(jué)表示的實(shí)用性。

最后,使用凍結(jié)的 R3M 功能遠(yuǎn)遠(yuǎn)優(yōu)于直接的 E2E 方法。這很令人興奮,表明視頻中的視覺(jué)預(yù)訓(xùn)練可以支持世界模型。

但8月數(shù)據(jù)強(qiáng)勁的E2E與凍結(jié)的R3M競(jìng)爭(zhēng),我們可以通過(guò)預(yù)訓(xùn)練做得更好。

eb5281de-8c5e-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1169

    瀏覽量

    41879
  • Meta
    +關(guān)注

    關(guān)注

    0

    文章

    303

    瀏覽量

    11820
  • 強(qiáng)化學(xué)習(xí)

    關(guān)注

    4

    文章

    269

    瀏覽量

    11567

原文標(biāo)題:Meta推出MoDem世界模型:解決視覺(jué)領(lǐng)域三大挑戰(zhàn),LeCun轉(zhuǎn)發(fā)

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    怎么結(jié)合嵌入式,Linux,和FPGA三個(gè)方向達(dá)到一個(gè)均衡發(fā)展?

    在嵌入式領(lǐng)域,不少人都懷揣著讓嵌入式、Linux 和 FPGA 三個(gè)方向?qū)崿F(xiàn)均衡發(fā)展的夢(mèng)想,然而實(shí)踐中卻面臨諸多挑戰(zhàn)。就像備受矚目的全棧工程師稚暉君,他從大學(xué)玩單片機(jī)起步,憑借將智能算法融入嵌入式而
    的頭像 發(fā)表于 06-25 10:08 ?286次閱讀
    怎么結(jié)合嵌入式,Linux,和FPGA<b class='flag-5'>三個(gè)</b>方向達(dá)到一<b class='flag-5'>個(gè)</b>均衡發(fā)展?

    華為發(fā)布天才少年挑戰(zhàn)課題發(fā)布 五大主題方向課題放榜

    ?: ?智能聯(lián)接與計(jì)算?:涉及自主智能無(wú)線通信架構(gòu)、昇騰強(qiáng)化學(xué)習(xí)系統(tǒng)等關(guān)鍵技術(shù)研究。 ?基礎(chǔ)研究與創(chuàng)新?:包括大模型安全關(guān)鍵技術(shù)、智能成像/編輯技術(shù)等研究。 ?智能終端?:聚焦于世界模型理論突破、基于計(jì)算機(jī)視覺(jué)的多
    的頭像 發(fā)表于 06-16 19:23 ?664次閱讀

    18個(gè)常用的強(qiáng)化學(xué)習(xí)算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    本來(lái)轉(zhuǎn)自:DeepHubIMBA本文系統(tǒng)講解從基本強(qiáng)化學(xué)習(xí)方法到高級(jí)技術(shù)(如PPO、A3C、PlaNet等)的實(shí)現(xiàn)原理與編碼過(guò)程,旨在通過(guò)理論結(jié)合代碼的方式,構(gòu)建對(duì)強(qiáng)化學(xué)習(xí)算法的全面理解。為確保內(nèi)容
    的頭像 發(fā)表于 04-23 13:22 ?360次閱讀
    18<b class='flag-5'>個(gè)</b>常用的<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>算法整理:從基礎(chǔ)方法到高級(jí)模型的理論技術(shù)與代碼實(shí)現(xiàn)

    Linux系統(tǒng)中最重要的三個(gè)命令

    Linux劍客是Linux系統(tǒng)中最重要的三個(gè)命令,它們以其強(qiáng)大的功能和廣泛的應(yīng)用場(chǎng)景而聞名。這三個(gè)工具的組合使用幾乎可以完美應(yīng)對(duì)Shell中的數(shù)據(jù)分析場(chǎng)景,因此被統(tǒng)稱(chēng)為L(zhǎng)inux
    的頭像 發(fā)表于 03-03 10:37 ?406次閱讀

    詳解RAD端到端強(qiáng)化學(xué)習(xí)后訓(xùn)練范式

    受限于算力和數(shù)據(jù),大語(yǔ)言模型預(yù)訓(xùn)練的 scalinglaw 已經(jīng)趨近于極限。DeepSeekR1/OpenAl01通過(guò)強(qiáng)化學(xué)習(xí)后訓(xùn)練涌現(xiàn)強(qiáng)大的推理能力,掀起新一輪技術(shù)革新。
    的頭像 發(fā)表于 02-25 14:06 ?559次閱讀
    詳解RAD端到端<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>后訓(xùn)練范式

    Kimi發(fā)布視覺(jué)思考模型k1,展現(xiàn)卓越基礎(chǔ)科學(xué)能力

    近日,Kimi公司正式發(fā)布其最新的視覺(jué)思考模型——k1。這款模型基于先進(jìn)的強(qiáng)化學(xué)習(xí)技術(shù)構(gòu)建,原生支持端到端的圖像理解和思維鏈技術(shù),為用戶提供全新的
    的頭像 發(fā)表于 12-17 09:59 ?767次閱讀

    如何在化學(xué)和材料科學(xué)領(lǐng)域開(kāi)展有影響力的人工智能研究?(

    部分編譯后的內(nèi)容:4.如何解決科學(xué)問(wèn)題?在掌握上述的工具和視角后,我們將提出一些建議,幫助您在化學(xué)領(lǐng)域選擇具有影響力的研究課題,并介紹機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 12-03 01:02 ?473次閱讀
    如何在<b class='flag-5'>化學(xué)</b>和材料科學(xué)<b class='flag-5'>領(lǐng)域</b>開(kāi)展有影響力的人工智能研究?(<b class='flag-5'>三</b>)

    螞蟻集團(tuán)收購(gòu)邊塞科技,吳翼出任強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室首席科學(xué)家

    領(lǐng)域的研究與發(fā)展。令人矚目的是,邊塞科技的創(chuàng)始人吳翼已正式加入該實(shí)驗(yàn)室,并擔(dān)任首席科學(xué)家一職。 吳翼在其個(gè)人社交平臺(tái)上對(duì)這一變動(dòng)進(jìn)行了回應(yīng)。他表示,自己最近接受了螞蟻集團(tuán)的邀請(qǐng),負(fù)責(zé)大模型強(qiáng)化學(xué)習(xí)領(lǐng)域的研究工
    的頭像 發(fā)表于 11-22 11:14 ?1529次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它通過(guò)與環(huán)境的交互來(lái)學(xué)習(xí)如何做出決策,以最大化累積獎(jiǎng)勵(lì)。PyTorch 是一個(gè)流行的開(kāi)源機(jī)器
    的頭像 發(fā)表于 11-05 17:34 ?1000次閱讀

    谷歌AlphaChip強(qiáng)化學(xué)習(xí)工具發(fā)布,聯(lián)發(fā)科天璣芯片率先采用

    近日,谷歌在芯片設(shè)計(jì)領(lǐng)域取得了重要突破,詳細(xì)介紹其用于芯片設(shè)計(jì)布局的強(qiáng)化學(xué)習(xí)方法,并將該模型命名為“AlphaChip”。據(jù)悉,AlphaChip有望顯著加速芯片布局規(guī)劃的設(shè)計(jì)流程,并幫助芯片在性能、功耗和面積方面實(shí)現(xiàn)更優(yōu)表現(xiàn)
    的頭像 發(fā)表于 09-30 16:16 ?684次閱讀

    基本理想電路元件的三個(gè)特征是什么

    基本理想電路元件是構(gòu)成電路的基本單元,它們具有三個(gè)基本特征:電壓-電流關(guān)系、能量轉(zhuǎn)換和電路參數(shù)。以下是對(duì)這三個(gè)特征的分析: 電壓-電流關(guān)系 理想電路元件的電壓-電流關(guān)系是其最基本的特征之一。這種關(guān)系
    的頭像 發(fā)表于 08-25 09:38 ?2334次閱讀

    對(duì)稱(chēng)相電壓的特點(diǎn)是哪三個(gè)方面

    對(duì)稱(chēng)相電壓是電力系統(tǒng)中常見(jiàn)的一種電壓形式,它具有三個(gè)相位,每個(gè)相位之間的相位差為120度。對(duì)稱(chēng)相電壓在工業(yè)生產(chǎn)和日常生活中有著廣泛的應(yīng)用,如電動(dòng)機(jī)、變壓器、發(fā)電機(jī)等。本文將從三個(gè)
    的頭像 發(fā)表于 08-12 18:18 ?3062次閱讀

    簡(jiǎn)述極管的三個(gè)工作區(qū)域

    極管的三個(gè)區(qū)域,通常指的是其在不同工作條件下的狀態(tài)區(qū)域,即截止區(qū)、放大區(qū)和飽和區(qū)。這三個(gè)區(qū)域定義極管在不同電壓和電流條件下的行為特性,
    的頭像 發(fā)表于 07-29 10:50 ?6432次閱讀

    可調(diào)變阻器三個(gè)引腳怎么區(qū)分

    可調(diào)變阻器,也稱(chēng)為電位器或可變電阻器,是一種可以調(diào)節(jié)電阻值的電子元件。它廣泛應(yīng)用于各種電子設(shè)備中,如音頻設(shè)備、電源管理、電機(jī)控制等。可調(diào)變阻器有三個(gè)引腳,分別是固定端、滑動(dòng)端和可調(diào)端。這三個(gè)引腳
    的頭像 發(fā)表于 07-24 11:12 ?2533次閱讀

    如何判斷ebc三個(gè)電極電壓

    在電化學(xué)領(lǐng)域,電化學(xué)電池(Electrochemical Battery Cell,簡(jiǎn)稱(chēng)EBC)是一種將化學(xué)能轉(zhuǎn)化為電能的裝置。EBC由三個(gè)
    的頭像 發(fā)表于 07-18 15:41 ?1799次閱讀
    主站蜘蛛池模板: 亚洲综合色丁香婷婷六月图片 | 国模在线视频一区二区三区 | 五月丁五月丁开行停停乱 | 天天射天天干天天插 | 日本wwwxx| 亚洲色图吧 | 磁力bt种子搜索在线 | 激情网五月天 | 国产手机在线国内精品 | 亚洲天堂免费 | 亚洲午夜久久久久影院 | 三级视频网站在线观看播放 | 免费在线播放毛片 | 午夜男人影院 | 干天天| 色播五月综合 | 欧美18在线 | 黄色成人在线 | 日韩a无吗一区二区三区 | 4438x成人网最大色成网站 | 男女啪视频大全1000 | 年下系列高h文 | 亚洲码在线 | 性欧美xxxx视频 | 婷婷久久久五月综合色 | 国产精品色婷婷在线观看 | 狠狠色丁香婷婷综合欧美 | 亚洲国产精品嫩草影院 | 亚洲视频一区在线观看 | 国产成人经典三级在线观看 | 天天干天天舔 | 女a男o肉文 | 亚洲综合成人网在线观看 | 免费h视频 | 欧美一级特黄aaaaaa在线看片 | 一区二区三区福利 | 最近的中文字幕免费动漫视频 | 久久精品最新免费国产成人 | 四虎院影永久在线观看 | 亚洲娇小性色xxxx | 在线免费观看h视频 |