在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OpenAI 把在模擬器中強(qiáng)化學(xué)習(xí)學(xué)到的方案遷移到機(jī)械手上

mK5P_AItists ? 來(lái)源:未知 ? 作者:工程師郭婷 ? 2018-08-03 14:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

這些具有一定難度的任務(wù) OpenAI 自己也在研究,他們認(rèn)為這是深度強(qiáng)化學(xué)習(xí)發(fā)展到新時(shí)代之后可以作為新標(biāo)桿的算法測(cè)試任務(wù),而且也歡迎其它機(jī)構(gòu)與學(xué)校的研究人員一同研究這些任務(wù),把深度強(qiáng)化學(xué)習(xí)的表現(xiàn)推上新的臺(tái)階。

OpenAI 已經(jīng)就機(jī)械手任務(wù)之二的轉(zhuǎn)方塊出了自己答案,展示了一個(gè)異常靈活的轉(zhuǎn)方塊的機(jī)械手。而且更精彩的是,這個(gè)完全在模擬器中強(qiáng)化學(xué)習(xí)學(xué)到的方案還可以不需任何微調(diào)就直接遷移到真實(shí)的機(jī)械手上。

OpenAI 把這套系統(tǒng)稱(chēng)作 Dactyl。OpenAI 過(guò)去一年中研究強(qiáng)化學(xué)習(xí)系統(tǒng)的偏好思路再次得到了體現(xiàn):在完全模擬的環(huán)境中訓(xùn)練,然后把訓(xùn)練結(jié)果遷移到現(xiàn)實(shí)世界的機(jī)械結(jié)構(gòu)中。

得益于可以大規(guī)模高速并行訓(xùn)練的模擬環(huán)境以及 OpenAI 在過(guò)去的研究中積累的系統(tǒng)設(shè)計(jì)與變量選擇經(jīng)驗(yàn),這樣的做法已經(jīng)可以得到很好的效果。強(qiáng)化學(xué)習(xí)算法方面,OpenAI 再次選擇了之前在 DOTA2 5v5 AI 中使用的 PPO(近端策略優(yōu)化),這當(dāng)然也再次展示了 PPO 作為通用強(qiáng)化學(xué)習(xí)算法的優(yōu)越性。當(dāng)然,系統(tǒng)最大的亮點(diǎn)還是可以完全在虛擬環(huán)境中訓(xùn)練,不需要對(duì)真實(shí)世界有準(zhǔn)確的物理模型也可以直接遷移到真實(shí)機(jī)械手、真實(shí)物體的控制上。

任務(wù)介紹

任務(wù)中使用的機(jī)械手模型是參照 Shadow Dexterous Hand 設(shè)計(jì)的。這是一個(gè)完全仿照人手設(shè)計(jì)的具有 20 個(gè)驅(qū)動(dòng)自由度、4 個(gè)半驅(qū)動(dòng)自由度、共 24 個(gè)關(guān)節(jié)的機(jī)械手,它的大小也和人手大小相同。任務(wù)的要求是在機(jī)械手的掌心放置一個(gè)方塊或者六棱柱,然后要求機(jī)械手把它翻轉(zhuǎn)到一個(gè)指定的角度,比如把某個(gè)側(cè)面翻到上方。系統(tǒng)只能觀察到五指指尖的空間坐標(biāo)以及三個(gè)固定角度的彩色攝像機(jī)采集到的畫(huà)面。

雖然這種機(jī)械手面世已經(jīng)有幾十年了,但是如何讓它像人類(lèi)一樣高效地控制物體一直都是機(jī)器人控制領(lǐng)域的老大難問(wèn)題。與空間定位移動(dòng)之類(lèi)的問(wèn)題不同,非常多自由度的機(jī)械手控制用傳統(tǒng)控制方法不僅運(yùn)行緩慢,而且必須對(duì)自由度做出一些限制,這也就隨之限制了它們控制真實(shí)世界物體的能力。

想通過(guò)深度強(qiáng)化學(xué)習(xí)的方法讓機(jī)械手翻轉(zhuǎn)一個(gè)物體,需要考慮這幾個(gè)問(wèn)題:

能在真實(shí)世界中工作。強(qiáng)化學(xué)習(xí)雖然已經(jīng)在很多模擬器環(huán)境以及游戲中展現(xiàn)出了優(yōu)秀的表現(xiàn),但是強(qiáng)化學(xué)習(xí)解決真實(shí)世界任務(wù)的研究仍然非常有限。OpenAI 的最終目標(biāo)就是要讓 Dactyl 在真實(shí)的機(jī)器人上完成任務(wù)。

高自由度控制。一般的機(jī)械臂(比如末端為夾子的工業(yè)機(jī)械臂)只有 7 個(gè)自由度,而機(jī)械手有多達(dá) 24 個(gè)自由度,僅僅是不讓 5 個(gè)指頭打架都有相當(dāng)?shù)碾y度。

有噪聲的部分信息觀察。Dactyl 在真實(shí)世界中工作的時(shí)候不可避免地會(huì)遇到傳感器讀數(shù)的噪聲和延遲問(wèn)題。當(dāng)某一個(gè)手指的傳感器受到其它手指或者物體的影響而無(wú)法返回讀數(shù)的時(shí)候,Dactyl 只能在部分信息的狀況下工作。而且,真實(shí)物理系統(tǒng)許多細(xì)節(jié)(比如摩擦和滑動(dòng))是無(wú)法直接觀察到的,系統(tǒng)必須自己做出推斷。

能操作多個(gè)物體。Dactyl 的設(shè)計(jì)目標(biāo)是要足夠靈活,能夠翻轉(zhuǎn)、定向多種不同種類(lèi)的物體。這就意味著不能選用只對(duì)某一些特定的幾何形狀有效的策略。

OpenAI 的解決方法

總的來(lái)說(shuō),OpenAI 完全在模擬器環(huán)境中、不借助任何人類(lèi)輸入進(jìn)行,讓 Dactyl 通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練物體定向任務(wù)。在訓(xùn)練結(jié)束后,學(xué)到的策略不需要任何微調(diào)環(huán)節(jié)就可以直接在真實(shí)機(jī)器人上工作。

不過(guò)其實(shí),學(xué)習(xí)機(jī)器人控制方法面臨著兩難的困境。模擬環(huán)境中的機(jī)器人固然可以輕松地獲得大量數(shù)據(jù)、訓(xùn)練出足夠復(fù)雜的策略,但是大多數(shù)控制問(wèn)題本身的建模都不夠精確,導(dǎo)致學(xué)習(xí)到的策略難以遷移到真實(shí)世界的機(jī)器人上。即便只是對(duì)「兩個(gè)物體接觸」這樣的簡(jiǎn)單現(xiàn)象建模,都還是一個(gè)開(kāi)放性的科研問(wèn)題,沒(méi)有什么廣為接受的、足夠好的模型。直接在真實(shí)的機(jī)器人上進(jìn)行訓(xùn)練自然可以根據(jù)真實(shí)世界的物理規(guī)律學(xué)習(xí)到好的策略,不過(guò)真實(shí)世界中的訓(xùn)練就只能按照真實(shí)世界的速度運(yùn)行,目前的強(qiáng)化學(xué)習(xí)算法受限于樣本效率問(wèn)題,需要相當(dāng)于好幾年的嘗試經(jīng)驗(yàn)才能夠解決物體轉(zhuǎn)向這樣的已經(jīng)相對(duì)簡(jiǎn)單的問(wèn)題。(財(cái)大氣粗的谷歌還真的就這樣做了,具體請(qǐng)見(jiàn)今天推文的第二篇。可以說(shuō),谷歌利用自己的財(cái)力優(yōu)勢(shì)替整個(gè)領(lǐng)域嘗試了很多僅僅理論上可行的研究方法)

OpenAI 的訓(xùn)練技巧具體來(lái)說(shuō)是「任務(wù)隨機(jī)化」(domain randomization),它并不追求建模的最佳擬真化,而是在充滿了豐富的變化的環(huán)境中學(xué)習(xí)到各種知識(shí)和經(jīng)驗(yàn)。這樣的做法兼?zhèn)淞四M器和真實(shí)環(huán)境學(xué)習(xí)兩種做法的優(yōu)點(diǎn):在模擬器環(huán)境中學(xué)習(xí),可以讓模擬器運(yùn)行速度高于真實(shí)世界速度,快速積累經(jīng)驗(yàn);同時(shí)用「多變」替代了「逼真」之后,它也可以在模擬器只能近似建模的任務(wù)中得到更好的表現(xiàn)。

包括 OpenAI 在內(nèi)的許多研究者都已經(jīng)通過(guò)實(shí)驗(yàn)展示出了任務(wù)隨機(jī)化對(duì)于越來(lái)越復(fù)雜的任務(wù)的明顯的提升作用,近期的最有力的例子就是 OpenAI 訓(xùn)練出的 DOTA2 5v5 AI。在這個(gè)機(jī)械手控制的任務(wù)中,OpenAI 也是在探索大規(guī)模運(yùn)行的任務(wù)隨機(jī)化能否帶來(lái)超出現(xiàn)有機(jī)器人控制方法的表現(xiàn)。

MuJoCo 物理模擬器相比真實(shí)的物理系統(tǒng)有這些不足:

在真實(shí)機(jī)器人和方塊上測(cè)量摩擦、阻尼、翻轉(zhuǎn)阻力等物理屬性很麻煩、很困難。而且隨著機(jī)械手磨損、這些值也會(huì)逐漸發(fā)生變化;模擬器中只有帶有固定參數(shù)的近似模型;

MuJoCo 是一個(gè)剛體運(yùn)動(dòng)的模擬器,這意味著它無(wú)法模擬機(jī)械手指尖的橡膠發(fā)生的接觸形變,也無(wú)法模擬手指上肌腱的拉伸;

在這個(gè)任務(wù)中機(jī)械手只能夠靠多次接觸方塊來(lái)改變方塊的方向,但接觸力又眾所周知地難以準(zhǔn)確在模擬器中復(fù)現(xiàn)。

如果仔細(xì)地調(diào)節(jié)模擬器中的參數(shù),模擬的機(jī)械手的行為確實(shí)可以和真實(shí)機(jī)械手的行為做到比較好的匹配,但是上面的這些作用以目前的模擬器就很難準(zhǔn)確建模了,調(diào)節(jié)參數(shù)也無(wú)濟(jì)于事。

所以 OpenAI 轉(zhuǎn)而使用的方法是使用大規(guī)模分布式的模擬訓(xùn)練環(huán)境,而且這些環(huán)境中的物理屬性和視覺(jué)特征都是隨機(jī)選擇的。隨機(jī)地選擇這些值是一種很自然的表征各種真實(shí)物理系統(tǒng)的不確定性的做法,當(dāng)然這樣也可以防止系統(tǒng)過(guò)擬合到一組特定的環(huán)境設(shè)置中。根據(jù) OpenAI 研究人員們的想法,如果一種策略在所有這些不同的模擬環(huán)境中都可以完成任務(wù),那么它也就很有可能可以直接在真實(shí)環(huán)境中完成任務(wù)。

在開(kāi)發(fā)和測(cè)試階段,OpenAI 通過(guò)內(nèi)置的運(yùn)動(dòng)控制傳感器對(duì)學(xué)習(xí)到的機(jī)械手控制策略進(jìn)行驗(yàn)證,這也是為了能夠隔絕 Dactyl 自身的控制網(wǎng)絡(luò)與視覺(jué)網(wǎng)絡(luò),可以對(duì)系統(tǒng)表現(xiàn)做出「客觀」的評(píng)價(jià)。

系統(tǒng)設(shè)計(jì)示意圖 - 模擬環(huán)境中訓(xùn)練

A. 分布式工作站從大量隨機(jī)環(huán)境中收集經(jīng)驗(yàn)

B. 通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練控制策略。這個(gè)策略根據(jù)物體的位姿和五個(gè)手指指尖的位置選擇接下來(lái)的行動(dòng)

C. 訓(xùn)練一個(gè) CNN 根據(jù)三路模擬環(huán)境中的攝像頭畫(huà)面估計(jì)物體的位姿

系統(tǒng)設(shè)計(jì)示意圖 - 遷移到真實(shí)世界

D. 位姿估計(jì)網(wǎng)絡(luò)和控制策略網(wǎng)絡(luò)共同工作,把任務(wù)從虛擬環(huán)境遷移到真實(shí)環(huán)境

學(xué)習(xí)控制

通過(guò)構(gòu)建可以支持遷移的模擬環(huán)境,OpenAI 把真實(shí)世界的機(jī)器人控制問(wèn)題簡(jiǎn)化為了模擬環(huán)境中完成任務(wù)的問(wèn)題,現(xiàn)在它就很適合用強(qiáng)化學(xué)習(xí)解決。當(dāng)然了,即便是在模擬器中,控制如此多自由度的機(jī)械手完成任務(wù)仍然是一個(gè)有挑戰(zhàn)性的目標(biāo),何況不同的模擬環(huán)境中還有不同的隨機(jī)物理屬性,這意味著物體的運(yùn)動(dòng)方式都會(huì)與真實(shí)世界有所不同。

為了能夠在不同的環(huán)境之間泛化,策略最好能夠在不同物理參數(shù)的環(huán)境中做出不同的行為。考慮到大多數(shù)的動(dòng)態(tài)物理參數(shù)都無(wú)法從單次觀察中得出推斷結(jié)果,OpenAI 選用了帶有一定記憶能力的 LSTM 網(wǎng)絡(luò)架構(gòu),實(shí)際上在模擬環(huán)境中基于 LSTM 得到的策略做出的旋轉(zhuǎn)動(dòng)作也要比其它不具有記憶能力的策略多一倍。

Dactyl 使用的大規(guī)模分布式 PPO 實(shí)現(xiàn)「Rapid」是和 DOTA2 5v5 AI 一樣的。在這個(gè)任務(wù)中,模型架構(gòu)、環(huán)境、超參數(shù)有所區(qū)別,但算法和訓(xùn)練代碼是一致的。Rapid 訓(xùn)練策略使用了 6144 個(gè) CPU 和 8 個(gè) GPU,訓(xùn)練 50 小時(shí)就可以采集到相當(dāng)于真實(shí)世界中 100 年長(zhǎng)度的經(jīng)驗(yàn)。

學(xué)習(xí)觀察

OpenAI 的設(shè)計(jì)目標(biāo)是讓 Dactyl 能夠控制任意的物體,不局限于那些經(jīng)過(guò)專(zhuān)門(mén)的改動(dòng)以后更好追蹤的物體。所以 Dactyl 也就選用了一組正常的彩色攝像頭對(duì)物體的位置和姿態(tài)進(jìn)行估計(jì)。

OpenAI 訓(xùn)練了一個(gè) CNN 用來(lái)估計(jì)位姿。這個(gè)網(wǎng)絡(luò)把布置在機(jī)械手周?chē)娜齻€(gè)攝像頭采集的視頻流作為輸入,然后輸出估計(jì)的物體位置和物體姿態(tài)。多個(gè)攝像頭的使用是為了避免判斷不清以及信號(hào)延遲。訓(xùn)練這個(gè)網(wǎng)絡(luò)時(shí) OpenAI 也使用了任務(wù)隨機(jī)化的做法,環(huán)境隨之暫時(shí)切換為了 Unity 游戲開(kāi)發(fā)平臺(tái),它對(duì)各種視覺(jué)效果的支持豐富程度要比 MuJoCo 高得多。

「控制」與「觀察」兩個(gè)獨(dú)立的網(wǎng)絡(luò)互相配合,控制網(wǎng)絡(luò)可以根據(jù)給定的物體位姿重新調(diào)整它的位姿,視覺(jué)網(wǎng)絡(luò)根據(jù)攝像頭采集的畫(huà)面確認(rèn)物體當(dāng)前的實(shí)際位姿。Dactyl 就這樣通過(guò)觀察控制了手里的物體。

學(xué)習(xí)位姿估計(jì)的圖像的一些示例

實(shí)驗(yàn)結(jié)果

逐漸產(chǎn)生的行為

在部署系統(tǒng)的時(shí)候,OpenAI 的研究人員們注意到 Dactyl 會(huì)使用一系列豐富的靈活手掌內(nèi)操縱技巧來(lái)解決在這個(gè)任務(wù);人類(lèi)其實(shí)也經(jīng)常會(huì)使用這些技巧。而及這些技巧并不需要人類(lèi)顯式地教會(huì)算法,它們?nèi)际撬惴ㄗ约喊l(fā)掘、自己學(xué)到的。

兩指夾住旋轉(zhuǎn)、滑動(dòng)、手指同步旋轉(zhuǎn),三種 Dactyl 完全自動(dòng)學(xué)到的與人類(lèi)類(lèi)似的運(yùn)動(dòng)模式

Dactyl 學(xué)到的六種不同的握持姿勢(shì)。根據(jù)握持分類(lèi)學(xué),從左上到右下依次為:指尖捏、掌心捏、三指握持、四指握持、強(qiáng)力握持以及 5 指精確握持。

OpenAI 通過(guò)觀察發(fā)現(xiàn),對(duì)于幾種高精確度的握持方法,比如兩指指尖捏,Dactyl 傾向于使用大拇指和小拇指;人類(lèi)比較習(xí)慣的自然是用大拇指+食指或者大拇指+中指。不過(guò)值得指出的是,機(jī)械手的小拇指比人類(lèi)的多出一個(gè)自由度,更為靈活,這可以作為 Dactyl 學(xué)會(huì)了這樣行為的一個(gè)解釋。這也可以理解為,Dactyl 一面可以自己發(fā)現(xiàn)人類(lèi)常用的手部姿態(tài),同時(shí)也可以重新適應(yīng)這些姿態(tài),讓它們更符合自己的肢體的限制和能力。

( AI 科技評(píng)論注:多提供一個(gè)思考角度,從生物進(jìn)化的角度來(lái)說(shuō),手指握持的方式是和手指的結(jié)構(gòu)相互適應(yīng)的。使用一個(gè)「類(lèi)人」的機(jī)械手,學(xué)習(xí)到「類(lèi)人」的握持姿勢(shì)并不奇怪。另一方面,握持姿勢(shì)的選擇除了自由度,也與生物結(jié)構(gòu)有關(guān),食指比小拇指更有力、也更靈活,這與人類(lèi)更常用食指也是相輔相成)

系統(tǒng)表現(xiàn)的遷移

OpenAI 在真實(shí)環(huán)境的機(jī)械手與攝像頭配置上測(cè)試了 Dactyl 在物體脫手、或者時(shí)間用完之前能翻轉(zhuǎn)的次數(shù),最高計(jì)數(shù) 50 次。在模擬器環(huán)境中訓(xùn)練出的策略可以直接成功地操控真實(shí)世界中的物體。

對(duì)于控制方塊的任務(wù),使用了「任務(wù)隨機(jī)化」訓(xùn)練得到的策略能成功完成翻轉(zhuǎn)的次數(shù)要多得多,如下表。并且,通過(guò)攝像頭信號(hào)估計(jì)位姿進(jìn)行控制得到的結(jié)果和使用運(yùn)動(dòng)追蹤傳感器得到的結(jié)果差不多,這也體現(xiàn)出了視覺(jué)估計(jì)網(wǎng)絡(luò)的高準(zhǔn)確率。

OpenAI 把在模擬器中強(qiáng)化學(xué)習(xí)學(xué)到的方案遷移到機(jī)械手上

學(xué)習(xí)過(guò)程

訓(xùn)練過(guò)程中的大多數(shù)時(shí)間都花在了提升策略在不同物理屬性環(huán)境中的魯棒性上。在不使用隨機(jī)化時(shí),在虛擬環(huán)境中學(xué)會(huì)翻轉(zhuǎn)物體需要的經(jīng)驗(yàn)大概相當(dāng)于 3 年那么長(zhǎng),而在全面使用了隨機(jī)化的設(shè)置下達(dá)到類(lèi)似的表現(xiàn)需要大概相當(dāng)于 100 年的經(jīng)驗(yàn)。(不過(guò)我們也別忘了,不使用隨機(jī)化時(shí)訓(xùn)練出的策略是無(wú)法直接遷移到真實(shí)世界的機(jī)器人的,因?yàn)閷W(xué)到的策略只針對(duì)模擬器中那一組特定的物理參數(shù)有效)

實(shí)驗(yàn)中的有趣發(fā)現(xiàn)

對(duì)于真實(shí)世界物體的控制來(lái)說(shuō),觸覺(jué)感知并不是必須的。Dactyl 接收到的信號(hào)只包括 5 個(gè)手指指尖的位置以及方塊的位置和方向。機(jī)械手上確實(shí)帶有觸覺(jué)傳感器,但是 OpenAI 并沒(méi)有使用它們就可以達(dá)到目標(biāo)。總地來(lái)說(shuō),相比于有一大批傳感器、一大批難以建模的數(shù)值,OpenAI 認(rèn)為一組數(shù)目有限但可以在模擬環(huán)境中高效建模的傳感器可以幫助帶來(lái)更好的表現(xiàn)。

為某一個(gè)物體做的隨機(jī)化設(shè)定可以泛化到其它屬性類(lèi)似的物體上。在控制方塊的系統(tǒng)開(kāi)發(fā)完成之后,OpenAI 制作了一個(gè)六棱柱,根據(jù)它的外型訓(xùn)練了一個(gè)新的策略,然后嘗試讓機(jī)械手控制它。有點(diǎn)出乎他們意料的是,只依靠一開(kāi)始為控制方塊設(shè)計(jì)的隨機(jī)化設(shè)置,機(jī)械手就能很好地控制六棱柱了。相比之下,重新訓(xùn)練一個(gè)控制圓球的策略就不能連續(xù)成功很多次,可能是因?yàn)椴](méi)有針對(duì)轉(zhuǎn)動(dòng)行為設(shè)計(jì)適合的隨機(jī)化模擬參數(shù)。

對(duì)于真實(shí)機(jī)器人來(lái)說(shuō),好的系統(tǒng)工程和好的算法一樣重要。在研究過(guò)程中,OpenAI 團(tuán)隊(duì)發(fā)現(xiàn)幾個(gè)工程師都嘗試一樣的策略的時(shí)候,其中一位得到的表現(xiàn)總是要比其他幾位的好得多。后來(lái)他們發(fā)現(xiàn)是因?yàn)檫@位工程師的筆記本電腦比較快,一個(gè)會(huì)影響表現(xiàn)的計(jì)時(shí)器 bug 從而就不會(huì)出現(xiàn)。這個(gè) bug 解決之后,整個(gè)團(tuán)隊(duì)運(yùn)行策略的表現(xiàn)都得到了提高。

沒(méi)有達(dá)到預(yù)期效果的項(xiàng)目

除了上面的驚喜之外,OpenAI 也驚訝地發(fā)現(xiàn)一些強(qiáng)化學(xué)習(xí)連續(xù)控制中的常用技巧并沒(méi)能幫助他們提高系統(tǒng)的表現(xiàn)。

減短反應(yīng)時(shí)間并沒(méi)有提高系統(tǒng)表現(xiàn)。大家普遍認(rèn)為減短做出動(dòng)作的時(shí)間間隔能夠提高系統(tǒng)表現(xiàn),因?yàn)檫@樣一來(lái)前后狀態(tài)之間的變化會(huì)比較小,也就更容易預(yù)測(cè)。目前 OpenAI 設(shè)定的動(dòng)作時(shí)間間隔是 80ms,要比人類(lèi)一般的反應(yīng)時(shí)間 150~250ms 短一些,但是仍然比神經(jīng)網(wǎng)絡(luò)計(jì)算所需的大概 25ms 左右的時(shí)間長(zhǎng)得多。令人驚訝的是,把動(dòng)作時(shí)間間隔縮短到 40ms 需要花費(fèi)更長(zhǎng)的訓(xùn)練時(shí)間,但同時(shí)并沒(méi)有給真實(shí)世界機(jī)械手的表現(xiàn)帶來(lái)可感的提升。有一種可能是,這種公認(rèn)有效的做法用在神經(jīng)網(wǎng)絡(luò)模型上的效果確實(shí)要比用在目前廣泛使用的線性控制模型的效果差一些。

用真實(shí)數(shù)據(jù)訓(xùn)練視覺(jué)策略并沒(méi)有帶來(lái)什么提升。在早期的實(shí)驗(yàn)中,OpenAI 綜合使用了模擬的以及真實(shí)的數(shù)據(jù)用來(lái)改進(jìn)模型。真實(shí)數(shù)據(jù)的采集來(lái)自一個(gè)帶有追蹤標(biāo)記的物體在測(cè)試策略的機(jī)械手上的實(shí)驗(yàn)過(guò)程。然而,真實(shí)數(shù)據(jù)相比模擬的數(shù)據(jù)有著顯著的劣勢(shì)。從追蹤標(biāo)記得到的位置信息帶有延遲和測(cè)量誤差,而且更糟糕的是,隨便改變一點(diǎn)參數(shù)就會(huì)讓已經(jīng)采集到的真實(shí)數(shù)據(jù)變得完全沒(méi)用。隨著 OpenAI 持續(xù)改進(jìn)自己的方法,只使用模擬數(shù)據(jù)訓(xùn)練的模型的表現(xiàn)也在不停提高,已經(jīng)達(dá)到了模擬和真實(shí)數(shù)據(jù)混合訓(xùn)練的模型的錯(cuò)誤率水平。最終使用的模型也就完全沒(méi)有使用真實(shí)數(shù)據(jù)。

總結(jié)

對(duì) OpenAI 來(lái)說(shuō),這個(gè)項(xiàng)目是他們過(guò)去兩年中追求的完整 AI 研發(fā)循環(huán)的最好體現(xiàn):先開(kāi)發(fā)新的強(qiáng)化學(xué)習(xí)算法,再拓展它的運(yùn)行規(guī)模、在模擬環(huán)境中訓(xùn)練解決困難的問(wèn)題,最后再把得到的系統(tǒng)應(yīng)用在真實(shí)世界中。以越來(lái)越大的規(guī)模沿著這種途徑不停前進(jìn)也是 OpenAI 為自己規(guī)劃的通往安全的通用人工智能的主要路徑。

OpenAI 已經(jīng)展示了聯(lián)通強(qiáng)化學(xué)習(xí)理論研究與現(xiàn)實(shí)世界問(wèn)題探索的一座橋梁,我們也期待看到這個(gè)領(lǐng)域內(nèi)更多的理論和現(xiàn)實(shí)世界問(wèn)題聯(lián)動(dòng)的案例。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2565

    文章

    52916

    瀏覽量

    766634
  • 控制網(wǎng)絡(luò)
    +關(guān)注

    關(guān)注

    0

    文章

    28

    瀏覽量

    10041

原文標(biāo)題:有史以來(lái)最精彩的自問(wèn)自答:OpenAI 轉(zhuǎn)方塊的機(jī)械手

文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    DevEcoStudio 中使用模擬器時(shí)如何過(guò)濾日志

    設(shè)置 Log message: A03d00/JSAPP 當(dāng)你看到不斷更新的日志時(shí),你會(huì)不會(huì)崩潰 因?yàn)?No-filters 模式下模擬器會(huì)輸出系統(tǒng)所有日志信息,這個(gè)模式開(kāi)發(fā)并不使用,可用
    發(fā)表于 05-23 10:46

    如何將項(xiàng)目從IAR遷移到Embedded Studio

    本文描述如何將IAR EWARM項(xiàng)目遷移到SEGGER Embedded Studio(簡(jiǎn)稱(chēng)SES)
    的頭像 發(fā)表于 02-25 17:11 ?568次閱讀
    如何將項(xiàng)目從IAR<b class='flag-5'>遷移到</b>Embedded Studio

    電網(wǎng)模擬器工作原理淺析

    電網(wǎng)模擬器是一種能夠模擬實(shí)際電網(wǎng)運(yùn)行狀態(tài)的裝置,它在電力系統(tǒng)的規(guī)劃、設(shè)計(jì)、測(cè)試和維護(hù)中發(fā)揮著至關(guān)重要的作用。了解電網(wǎng)模擬器的工作原理對(duì)于優(yōu)化電力系統(tǒng)的設(shè)計(jì)和提升其運(yùn)行效率具有重要意義。 電網(wǎng)
    的頭像 發(fā)表于 01-09 16:58 ?841次閱讀

    光伏組件模擬器9大參數(shù)概述

    是確保質(zhì)量和性能的關(guān)鍵。 光伏組件模擬器模擬太陽(yáng)光譜和輻照度,實(shí)現(xiàn)精確測(cè)試。與自然光照相比,模擬器不受天氣和時(shí)間限制,提供穩(wěn)定可控的光照條件,確保測(cè)試數(shù)據(jù)準(zhǔn)確且可重復(fù)。此外,模擬器
    的頭像 發(fā)表于 12-31 18:10 ?695次閱讀
    光伏組件<b class='flag-5'>模擬器</b>9大參數(shù)概述

    CAN總線模擬器的使用指南 CAN總線網(wǎng)絡(luò)的安全性分析

    CAN總線模擬器的使用指南 CAN總線模擬器(如ICSim)是一種用于模擬CAN總線通信的工具,它可以幫助用戶沒(méi)有實(shí)際硬件的情況下進(jìn)行CAN總線通信的測(cè)試、調(diào)試和
    的頭像 發(fā)表于 12-23 09:16 ?2579次閱讀

    如何使用 PyTorch 進(jìn)行強(qiáng)化學(xué)習(xí)

    的計(jì)算圖和自動(dòng)微分功能,非常適合實(shí)現(xiàn)復(fù)雜的強(qiáng)化學(xué)習(xí)算法。 1. 環(huán)境(Environment) 強(qiáng)化學(xué)習(xí),環(huán)境是一個(gè)抽象的概念,它定義了智能體(agent)可以執(zhí)行的動(dòng)作(acti
    的頭像 發(fā)表于 11-05 17:34 ?1017次閱讀

    如何使用光伏模擬器

    光伏模擬器是一種用于模擬太陽(yáng)能光伏電池工作原理和性能的軟硬件設(shè)備。它能夠提供光伏電池不同光照、溫度和環(huán)境條件下的電流、電壓、功率等參數(shù),用于測(cè)試和評(píng)估光伏電池的性能,并幫助開(kāi)發(fā)、優(yōu)化和驗(yàn)證光伏系統(tǒng)
    的頭像 發(fā)表于 10-30 17:12 ?833次閱讀
    如何使用光伏<b class='flag-5'>模擬器</b>

    從USCI模塊遷移到eUSCI模塊

    電子發(fā)燒友網(wǎng)站提供《從USCI模塊遷移到eUSCI模塊.pdf》資料免費(fèi)下載
    發(fā)表于 10-18 10:39 ?0次下載
    從USCI模塊<b class='flag-5'>遷移到</b>eUSCI模塊

    負(fù)載模擬器是干什么的,負(fù)載模擬器需要接電源嗎

    負(fù)載模擬器是一種用于模擬各種負(fù)載條件的設(shè)備,它在多個(gè)領(lǐng)域都有著廣泛的應(yīng)用。以下是對(duì)負(fù)載模擬器的主要功能和用途的詳細(xì)解析:
    的頭像 發(fā)表于 10-01 15:57 ?1613次閱讀

    IT資源遷移到云服務(wù)的關(guān)鍵因素

    以及遷移過(guò)程中需要考慮的關(guān)鍵因素。 1. 為什么選擇將IT資源遷移到云服務(wù) 成本效益: 通過(guò)使用云服務(wù),企業(yè)可以避免昂貴的硬件設(shè)備和維護(hù)成本,以按需付費(fèi)的方式使用計(jì)算資源,降低總體
    的頭像 發(fā)表于 09-18 11:21 ?583次閱讀

    機(jī)械手 OEM 的應(yīng)用

    方案,并通過(guò)精確的動(dòng)作控制,幫助患者進(jìn)行肢體的運(yùn)動(dòng)訓(xùn)練,促進(jìn)患者的康復(fù)。 科研教育領(lǐng)域 : 科學(xué)研究 :科學(xué)研究機(jī)械手 OEM 可以用于實(shí)驗(yàn)的操作和數(shù)據(jù)的采集。例如,
    發(fā)表于 09-18 10:31

    電池模擬器的原理和運(yùn)用介紹

    電池模擬器是一種功能強(qiáng)大的設(shè)備,它能夠精確模擬電池實(shí)際使用的多種特性,包括電壓、電流和內(nèi)阻等。這種設(shè)備現(xiàn)代科技中發(fā)揮著重要作用,特別是
    的頭像 發(fā)表于 09-11 16:11 ?1971次閱讀
    電池<b class='flag-5'>模擬器</b>的原理和運(yùn)用介紹

    遷移到基于Arm STM32的MSPMO指南

    電子發(fā)燒友網(wǎng)站提供《從遷移到基于Arm STM32的MSPMO指南.pdf》資料免費(fèi)下載
    發(fā)表于 09-07 11:17 ?0次下載
    從<b class='flag-5'>遷移到</b>基于Arm STM32的MSPMO指南

    通過(guò)GNSS模擬器實(shí)現(xiàn)RTK高精度定位 #RTK #GNSS模擬 #GNSS仿真 #GNSS模擬器

    定位模擬器
    虹科衛(wèi)星與無(wú)線電通信
    發(fā)布于 :2024年09月06日 17:52:32

    致茂負(fù)載模擬器LED電源測(cè)試方案

    致茂獨(dú)家提供負(fù)載模擬器LED電源測(cè)試方案
    的頭像 發(fā)表于 08-28 10:55 ?1238次閱讀
    主站蜘蛛池模板: 国产精品一级香蕉一区 | 日本一区二区在线免费观看 | 欧美日本一区二区 | 日本一道dvd在线中文字幕 | 网站在线观看视频 | 婷婷激情综合网 | 49pao强力免费打造在线高清 | 国产精品大尺度尺度视频 | 经典三级一区在线播放 | 亚洲 欧美 日韩 综合 | 男人的午夜影院 | 色老头·com 色老头成人免费综合视频 色老头久久久久 | 亚洲精品久久久久午夜 | aaaaa级毛片免费视频 | 亚洲天堂视频在线观看免费 | 国产午夜免费视频片夜色 | 在线观看视频免费 | 色老头成人免费综合视频 | 日本亚洲免费 | 成人午夜影院在线观看 | 啪啪午夜免费 | 婷婷 色天使 | 日韩综合色 | 欧美性猛交aa一级 | 亚洲影院手机版777点击进入影院 | 国产一区二区三区在线观看视频 | 免费国产h视频在线观看 | 好硬好湿好爽再深一点h视频 | 亚洲人色大成年网站在线观看 | 奇米影视第四色7777 | 国产中文99视频在线观看 | a一级视频 | 狠狠鲁狠狠操 | 超级乱淫小黄文小说 | 欧美在线视频播放 | 68日本 xxxxxxxxx | 人与禽性视频77777 | 三级黄色在线视频 | 亚欧美综合 | 亚洲久久在线 | 婷婷了五月色香综合缴情 |