在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OpenAI打造的機器手能以前所未有的靈活度操縱立方體、圓柱體等物體

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-08-01 09:22 ? 次閱讀

之前在DOTA2團隊戰中戰勝人類玩家的OpenAI Five,現在被用于訓練機器手,取得了前所未有的靈活度。這只機器手完全在虛擬環境中自我學習和訓練,然后成功遷移到現實世界解決實際問題。OpenAI使用6144個CPU和8個GPU來訓練,50小時內收集了大約100年的經驗。

還記得OpenAI那個在DOTA2有限制5v5團戰中戰勝人類玩家的OpenAI Five嗎?

這次,OpenAI的研究人員將同樣的算法和同樣的代碼用在了訓練機器手上,所得到的機器手能以前所未有的靈活度操縱立方體、圓柱體等物體。

Dactyl自主學習的靈巧操作行為

這個系統名為Dactyl,與其他機器人系統不同的地方在于,它完全在模擬環境中進行訓練,并將其虛擬世界中得到的知識轉化為現實,并且適應現實世界的物理學。所有的行為都是自主發現的。

研究人員表示,他們的結果表明,完全可以在純模擬環境中訓練智能體,無需對現實世界進行精確的物理建模(一項極端復雜且浩大的工程),就能讓智能體解決實際的任務。

雖然 Dactyl 機器手跟人手相比仍有一定距離,但這項工作表明,機器學習有可能解鎖機器新的能力——將來,AI完全可以在虛擬世界中自己教自己新的技能,大大加快學習速度,然后轉移至物理世界。

OpenAI還在這次研究中發現了一些令他們感到意外的結果:

首先,觸覺感應對于操縱現實世界物體并不是必要的。Dactyl 機器手操縱只接收五個指尖的位置以及立方體的位置和方向。有限的傳感器可以獲得更好的性能,因為這些傳感器可以在模擬器中有效建模,由很多傳感器組成的傳感器組建模起來非常復雜。

其次,為一個對象開發的隨機化(Randomizations)也能推廣到具有類似屬性的其他對象身上。在玩轉立方體后,OpenAI的研究人員打印了一個八角棱鏡,結果 Dactyl 機器手僅使用他們為立方體設計的隨機化就實現了高的性能。不過,操縱球體還略有難度,可能是因為他們沒有隨機化模擬滾動行為的參數。

此外,對于現實世界的機器人來說,要讓運作性能高,好的系統工程與好的算法同等重要。

減少反應時間并沒有改善性能。傳統觀點認為,減少動作之間的時間應該可以提高性能,因為狀態之間的變化更小,因此更容易預測。但實驗中,研究人員將機器手動作之間的時間減少到 40ms,訓練時間反而變長,而且沒有顯著改善其在現實世界中的性能。他們得出的結論是,這種經驗法則可能適用于線性模型,但可能不太適用于神經網絡模型。

最后,使用真實數據來訓練結果不一定更好。與模擬數據相比,真實數據有很明顯的缺點,比如跟蹤標記的位置信息有延遲和測量誤差。更糟糕的是,實際配置的更改很容易讓實際數據變得無效,而且收集足夠多、足夠有用的數據十分困難。最終 Dactyl 機器手的視覺模型,是在沒有任何實際數據的情況下完成的。

機器手靈活控制物體有四大難點,一直未取得重大突破

Dactyl是一個使用Shadow Dexterous Hand操縱目標的系統。我們將一個木塊或棱鏡這樣的物體放在Dactyl的手掌中,讓Dactyl將其重新定位至不同的方向;比如旋轉木塊,讓其新的一面朝上。網絡僅負責觀察指尖的坐標以及來自三個普通RGB相機的圖像。

雖然第一個擬人化的機器手早在幾十年前就出現了,但如何利用這些手有效地操縱物體,一直是機器人控制領域內的長期挑戰。與運動之類的其他問題不同,人們在利用傳統機器人方法實施靈巧的操作方面的進展一直很緩慢,并且當前的技術在操縱現實世界中的物體上仍然存在局限性。

要對機器手中的物體實施重新定向,需要解決以下問題:

在現實世界中奏效。強化學習在模擬和視頻游戲中取得了許多成功,但在現實世界中取得的成果卻相對有限。我們在真實的機器人身上對Dactyl進行了測試。

高維控制。Shadow Dexterous Hand的自由度為24,而一般的機器人手臂的自由度為7。

噪音和觀察部分目標。 Dactyl是在真實世界中工作,因此必須處理噪聲和延遲的傳感器數據。當指尖的傳感器被其他手指或物體遮擋時,Dactyl必須能夠處理不完整信息。像摩擦和滑動等物理體系中的許多組成部分,是無法直接通過觀察得到的,必須由推理得出。

操縱多個對象。 Dactyl在設計上的高靈活性,足以重新定向多個目標。也就是說,我們的方法不能使用僅適用于特定形狀目標的策略。

無需任何人工輸入:領域隨機化,再現模擬奇跡!

Dactyl完全是在模擬環境中學習如何解決目標重定向任務(object reorientation task)的,無需任何的人工輸入。在此訓練階段之后,學習策略會在沒有任何微調的情況下對真實機器人起一定作用。

在操縱機器人的學習方法方面,通常會面臨一個兩難的選擇。模擬的機器人可以輕松提供充足的數據來訓練復雜的策略,但是大多數操作問題都無法準確地建模,從而無法使這些策略轉移到真實機器人身上。即使是對兩個物體接觸時發生的情況進行建模(這是操作中最基本的問題)也是一個活躍的研究領域,并且目前沒有廣泛統一且接受的解決方案。直接在物理機器人上展開訓練可以讓策略從現實世界物理層面進行學習,但現今的算法需要多年的經驗才能解決類似對象重定向這樣的問題。

而領域隨機化(domain randomization)是在模擬中進行學習的,旨在提供各種經驗而不是將現實進行最大化。這種思路提供了最好的兩種方法:在模擬中學習,可以通過擴展來快速收集更多的經驗;不強調現實主義,可以解決模擬器只能近似模擬的問題。

利用MuJoCo物理引擎構建機器人系統的模擬版本。這個模擬僅僅是真實機器人的粗略近似:

對摩擦、阻尼和滾動阻力等物理屬性進行測量是既麻煩又困難的。隨著機器人的磨損,這些屬性也會隨時間而改變。

MuJoCo是一個剛體模擬器,這意味著它不能模擬手指上或肌腱的拉伸時的可變形橡膠。

機器人只能通過反復接觸來操縱物體。 然而,眾所周知,接觸力難以在模擬中準確地再現。

通過校準其參數來匹配機器人的行為,可以使模擬更加逼真,但在目前的模擬器中,許多這樣的效果是無法精確建模的。

相反,該方法是在模擬環境的分布上對策略進行訓練,其中物理和視覺屬性是隨機選擇的。隨機值是表示物理系統不確定性的一種自然方法,它還可以防止對單個模擬環境的過度擬合。如果策略可以在所有模擬環境中完成任務,則更有可能在現實世界中完成該任務。

6144個CPU和8個GPU,50小時內收集大約100年的經驗

學習控制

通過構建支持遷移的模擬,我們減輕了在現實世界中控制機器人來完成模擬任務的困難,這是一個非常適合強化學習的問題。雖然用一只模擬的手來操縱物體這個任務已經有些困難,但是要在所有隨機物理參數組合中學習進行這樣的操作實際上要更加困難。

為了在不同環境中進行推廣(generalize),策略可以在具有不同動態的環境中執行不同的操作。由于大多數動力學參數不能從單個觀測中推斷出來,所以我們使用LSTM(一種具有記憶的神經網絡)使網絡能夠了解環境的動態。LSTM在模擬中實現的旋轉大約兩倍于不具有記憶的策略的旋轉。

Dactyl使用Rapid學習,這是一個強化學習訓練系統,之前解決了Dota2的OpenAI Five使用的也是它。我們使用了與OpenAI Five不同的模型架構、環境和超參數,但是使用的算法和訓練代碼是完全相同的。Rapid使用6144個CPU內核和8個GPU來訓練我們的策略,在50小時內收集了大約100年的經驗。

為了進行開發和測試,我們使用嵌入式運動跟蹤傳感器來驗證我們的控制策略,以分別了解控制策略和視覺網絡的性能。

學習觀察

Dactyl的設計目的是能夠操縱任意物體,而不僅僅是為了支持跟蹤進行過特殊修改的物體。因此,Dactyl使用常規的RGB相機圖像來估計物體的位置和方向。

我們使用卷積神經網絡訓練一個姿態估計器(pose estimator)。神經網絡從機器手周圍的三個攝像機中獲取視頻流,并輸出目標的預估位置和方向。我們使用多臺攝像機來解決模糊和遮擋問題。我們再次使用Unity游戲開發平臺,僅在模擬中使用域隨機化來訓練這個網絡,該平臺可以模擬比Mujoco更廣泛的視覺現象。

控制網絡(control network)根據對象的姿態重新定位,視覺網絡(vision network)將圖像從攝像機映射到對象的姿態,通過結合這兩個獨立的網絡,Dactyl可以通過觀察來操縱對象。

用于學習估計立方塊的姿勢的訓練示例

所有行為都由機器自主發現,采用與人不同的策略

在部署系統時,我們注意到Dactyl使用了一組多樣的靈巧操作策略來解決任務。這些策略也是人類經常使用的。但是,我們并沒有明確地將這些策略教給系統;所有的行為都是自主發現的。

Dactyl自主學習的靈巧操作行為

Dactyl根據GRASP分類法了解類型。從左上到右下分別是:指尖捏、掌心捏、三指握、四指握、強力抓握、五指精準抓握。

我們觀察到,對于精準抓握,比如指尖捏,Dactyl會使用拇指和小指。人類則傾向于使用拇指和食指或拇指和中指。然而,由于由額外的自由度,機器手的小指更加靈活,這也許可以解釋為什么Dactyl更喜歡用小指。這意味著Dactyl可以調整人類的策略,以更好地適應自身的局限性和能力。

改變實驗方式時的表現

我們測試了Dactyl在掉落物體、超時或成功翻轉目標50次前的成功翻轉次數。 我們在純模擬訓練的結果表明,該策略能夠成功操縱現實世界中的目標。

我們在實驗室中使用Shadow Dexterous Hand、PhaseSpace動作跟蹤相機和Basler RGB相機進行實驗。

對于操作立方體的任務而言,使用隨機化訓練的策略可能比未隨機化訓練的策略實現更多的翻轉次數,具體結果如下表所示。 此外,使用由視覺估計姿態的控制網絡的表現,幾乎與直接從運動跟蹤傳感器中讀取數據的網絡一樣好。

隨機化情況 目標跟蹤方式 最大成功翻轉次數 成功次數中位數
全部隨機化 視覺跟蹤 46 11.5
全部隨機化 運動跟蹤 50 13
未隨機化 運動跟蹤 6 0

學習過程

為了讓我們的策略在面向不同的物理動態目標時變得更加強大,OpenAI研究人員將絕大部分的訓練時間花費在這件事上。在沒有隨機化的情況下,要在模擬實驗中學會翻轉立方體需要大約3年時間。在完全隨機化模擬實驗中,實現類似的目標性能則需要大約100年。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 傳感器
    +關注

    關注

    2561

    文章

    52288

    瀏覽量

    762302
  • 智能體
    +關注

    關注

    1

    文章

    235

    瀏覽量

    10915
  • 機器手
    +關注

    關注

    0

    文章

    12

    瀏覽量

    2725

原文標題:【2天=100年】OpenAI用打Dota2的算法造了一只會轉方塊的機器手

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    如何獲取 OpenAI API Key?API 獲取與代碼調用示例 (詳解教程)

    ,催生了從智能聊天到復雜數據分析前所未有的應用場景。OpenAI API Key 是開啟這些能力的關鍵,它既是身份憑證,也是資源管理和安全保障的核心。然而,安全、高效地獲取、管理和使用 API
    的頭像 發表于 05-04 11:42 ?175次閱讀
    如何獲取 <b class='flag-5'>OpenAI</b> API Key?API 獲取與代碼調用示例 (詳解教程)

    軟通動力昇騰AI一機助力中鐵魯班AI升級

    近期,隨著DeepSeek大模型的推出,人工智能正以前所未有的速度重塑各行業的發展格局。緊隨行業趨勢,中鐵魯班基于軟通動力昇騰AI一機自主打造魯班平臺大模型底座-魯小寶,并實現與DeepSeek大模型全棧應用對接,為各單位招投
    的頭像 發表于 02-24 18:00 ?742次閱讀

    生成式AI如何驅動收入和投資回報率飆升

    生成式 AI 正在以前所未有的速度重塑商業格局,為企業帶來前所未有的增長機遇。
    的頭像 發表于 01-24 11:49 ?514次閱讀

    從片上系統(SoC)到立方體集成電路(CIC)

    ,CIC(Cubic Integrated Circuit)立方體集成電路,三者有什么異同,今天,我們將其放在一起進行比較解讀。 ? ?SoC? SoC是System on Chip的縮寫,中文稱“片上
    的頭像 發表于 12-18 11:03 ?715次閱讀
    從片上系統(SoC)到<b class='flag-5'>立方體</b>集成電路(CIC)

    新型寬帶UV頻率梳提供前所未有的光譜分辨率

    研究人員開發出一種新的超快激光平臺,可產生具有前所未有的一百萬條梳狀線的超寬帶紫外(UV)頻率梳,提供卓越的光譜分辨率。這種新方法還能產生極其精確和穩定的頻率,可增強高分辨率原子和分子光譜學。光學
    的頭像 發表于 11-20 06:24 ?399次閱讀
    新型寬帶UV頻率梳提供<b class='flag-5'>前所未有的</b>光譜分辨率

    維愛普|圓柱形濾波器在智能家居中的應用與優勢

    隨著科技的飛速發展,智能家居正逐漸走進千家萬戶,為人們的生活帶來前所未有的便捷與舒適。而在這一變革中,圓柱形濾波器作為信號處理技術的重要一環,正悄然發揮著其獨特的作用。
    的頭像 發表于 09-24 10:36 ?402次閱讀

    中國大陸AMOLED DDIC將于2024年迎來前所未有的需求高峰

     在全球顯示技術的浪潮中,OLED顯示驅動芯片(DDIC)市場正步入一個需求井噴的新階段,尤以智能手機領域的AMOLED DDIC市場為甚,預計其將于2024年迎來前所未有的需求高峰。這一趨勢中,中國大陸廠商的表現尤為搶眼,成為推動市場增長的重要力量。
    的頭像 發表于 08-27 14:35 ?1695次閱讀

    日本推出革命性的人形機器

    8月2日,日本科技界傳來新突破,立命館大學攜手滋賀縣草津市的“人機一機器人創新企業,共同揭幕了一款革命性的人形機器人。這款機器人以其卓越的自適應平衡能力,在未預先測繪環境的情況下,
    的頭像 發表于 08-02 17:08 ?981次閱讀

    OpenAI今年收支缺口或達50億美元

    科技界巨頭OpenAI正面臨前所未有的財務挑戰,據最新估算,其今年收支缺口可能高達驚人的50億美元。這一數字不僅凸顯了公司在推動人工智能前沿技術上的巨大投入,也反映了其商業化進程中的艱巨任務。
    的頭像 發表于 07-26 17:00 ?657次閱讀

    OpenAI將推出在線搜索工具“SearchGPT”

    階段,僅對一小群精選用戶開放。SearchGPT以其獨特的優勢——能夠提供更及時的信息與更為顯著的來源鏈接,為用戶帶來前所未有的搜索體驗,標志著OpenAI對谷歌發起的最為直接的一次挑戰。
    的頭像 發表于 07-26 16:54 ?852次閱讀

    創意挑戰丨從0自制“自平衡立方體”(分享開源資料)

    立方體的機械設計與最初的 Cubli 基本相同,但也有一些細微的差別。主體結構由八個轉角組件和六塊面板組成。其中三塊面板具有額外的功能,可支持電機和反作用力輪組件。所有部件都是在Fusion360中繪制的。我的學生時代已經結束,因此不得不告別西門子NX。
    的頭像 發表于 06-19 15:06 ?1280次閱讀
    創意挑戰丨從0自制“自平衡<b class='flag-5'>立方體</b>”(分享開源資料)

    創意挑戰丨從0自制“自平衡立方體”(分享開源資料)

    一個非常有意思的項目,利用反作用力輪保持平衡的立方體! 項目概覽 這個立方體能夠在頂點處保持平衡,同時還能以受控方式繞軸旋轉。這一功能是通過巧妙地控制和一組三個反作用力輪來實現的。這個裝置
    發表于 06-19 14:00

    甲骨文、微軟與OpenAI攜手,共創AI新紀元

    Azure人工智能平臺與甲骨文云基礎設施(OCI)深度融合,為OpenAI提供前所未有的計算資源,共同推動AI技術的創新與應用。
    的頭像 發表于 06-12 15:08 ?761次閱讀

    基于超導納米線單光子探測器的40萬像素相機提供前所未有的宇宙視野

    一臺基于超導納米線單光子探測器(SNSPD)的40萬像素相機為天文學和量子技術應用提供了前所未有的低噪聲、高分辨率成像能力。在探索遙遠恒星和系外行星等微弱天體的過程中,捕捉每一個光子對于最大
    的頭像 發表于 06-04 09:46 ?1.9w次閱讀

    OpenAI推出ChatGPT實時數據分析新功能

    近日,OpenAI在ChatGPT中推出了令人矚目的實時數據分析新功能。這一創新功能為用戶提供了前所未有的數據處理體驗,極大地提升了數據處理的便捷性。
    的頭像 發表于 05-20 11:28 ?820次閱讀
    主站蜘蛛池模板: 欧美资源在线 | 免费一级网站 | 一卡二卡卡四卡无人区中文 | 欧美特黄一级视频 | 日本不卡一区二区三区视频 | 欧美大尺度aaa级毛片 | 网友自拍区一区二区三区 | 日本在线www| 日本黄色小视频网站 | 一级毛片aa| 亚洲乱亚洲乱妇41p国产成人 | 韩国电影天堂 | 九九久久久久午夜精选 | 色多多在线免费观看 | 欧美啪啪精品 | 一级毛片在播放免费 | 日本人爽p大片免费看 | 久久久久免费精品国产 | 狠狠操夜夜爱 | 午夜欧美视频 | 中文字幕一区二区三区不卡 | 一区二区三区四区在线免费观看 | 国产精品三级 | 99久免费精品视频在线观看2 | 999国产精品 | 亚洲色图片区 | 成人三级网址 | 欧美三级不卡在线观线看高清 | 欧美1314www伊人久久香网 | 四虎影院精品在线观看 | 亚洲国产日韩欧美在线as乱码 | 欧美黑人xxxx猛牲大交 | 婷婷影院在线综合免费视频 | 天天草天天干天天 | 国产一级大片在线观看 | 爱爱的免费视频 | 狠狠色丁香久久综合网 | 天天干夜夜爽 | 亚洲娇小性色xxxx | 国模吧双双大尺度炮交gogo | 成人久久精品 |