在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

研發(fā)全新多模態(tài)感知AI框架 AI能同時(shí)模擬人眼和手預(yù)測(cè)物體運(yùn)動(dòng)

工程師鄧生 ? 來(lái)源:VentureBeat ? 作者:VentureBeat ? 2021-02-12 09:12 ? 次閱讀

據(jù)外媒VentureBeat報(bào)道,來(lái)自三星、麥吉爾大學(xué)和約克大學(xué)的研究人員,近日研發(fā)出一個(gè)全新的生成式多模態(tài)感知AI框架,能夠根據(jù)物體初始狀態(tài)的視覺(jué)和觸覺(jué)數(shù)據(jù),來(lái)預(yù)測(cè)出物體的運(yùn)動(dòng)趨勢(shì)。

據(jù)悉,這是第一個(gè)利用視覺(jué)和觸覺(jué)感知來(lái)學(xué)習(xí)多模態(tài)動(dòng)力學(xué)模型的研究。

運(yùn)動(dòng)預(yù)測(cè)是自動(dòng)化領(lǐng)域的一大關(guān)鍵技術(shù),通過(guò)預(yù)判物體和環(huán)境的交互方式,自動(dòng)化系統(tǒng)得以作出更加智能的決策。該團(tuán)隊(duì)的這項(xiàng)研究,似乎又將這一技術(shù)的應(yīng)用向前推進(jìn)了一步。

這篇論文名為《基于多模態(tài)的生成模型指導(dǎo)的直觀(guān)物理研究(Learning Intuitive Physics with Multimodal Generative Models)》,已發(fā)表于arXiv平臺(tái)。

論文鏈接:

https://arxiv.org/pdf/2101.04454.pdf

一、運(yùn)動(dòng)預(yù)測(cè)有挑戰(zhàn):摩擦力、壓力難確定

假如你要接住一個(gè)掉落的物體,你會(huì)迅速判斷它的運(yùn)動(dòng)走向,然后準(zhǔn)確接住它。

但對(duì)于一個(gè)機(jī)器人來(lái)說(shuō),要準(zhǔn)確預(yù)測(cè)出物體還未發(fā)生的運(yùn)動(dòng)趨勢(shì),可不是一件容易的事。

近期,不少運(yùn)動(dòng)預(yù)測(cè)方面的AI研究,都指出了觸覺(jué)和視覺(jué)之間的協(xié)同作用。

其中,觸覺(jué)數(shù)據(jù)可以反映物體和環(huán)境間的作用力、由此產(chǎn)生的物體運(yùn)動(dòng)和環(huán)境接觸等關(guān)鍵信息,提供一種展現(xiàn)物體與環(huán)境交互過(guò)程的整體視角;視覺(jué)數(shù)據(jù)則可以直觀(guān)反映了立體形狀、位置等物體屬性。

在本文研究人員看來(lái),視覺(jué)、觸覺(jué)信號(hào)的組合,或有助于推測(cè)出物體運(yùn)動(dòng)后的最終穩(wěn)定狀態(tài)。

研究人員在論文寫(xiě)道:“先前的研究表明,由于摩擦力、幾何特性、壓力分布存在不確定性,預(yù)測(cè)運(yùn)動(dòng)對(duì)象的軌跡具有挑戰(zhàn)性。”

比如推一個(gè)瓶子,如何準(zhǔn)確預(yù)測(cè)這個(gè)動(dòng)作的結(jié)果,接下來(lái)這個(gè)瓶子是會(huì)向前移動(dòng),還是會(huì)翻倒?

▲《基于多模態(tài)的生成模型指導(dǎo)的直觀(guān)物理研究(Learning Intuitive Physics with Multimodal Generative Models)》論文插圖

為了減少這種不確定性,研究團(tuán)隊(duì)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)由軟硬件組成的高質(zhì)量AI感知系統(tǒng),經(jīng)訓(xùn)練后,該系統(tǒng)能捕獲到運(yùn)動(dòng)軌跡中最關(guān)鍵、最穩(wěn)定的元素,從而準(zhǔn)確測(cè)量和預(yù)測(cè)物體落在表面上的最終靜止?fàn)顟B(tài)。

二、開(kāi)發(fā)新型視覺(jué)觸覺(jué)傳感器,打造多模態(tài)感知系統(tǒng)

動(dòng)態(tài)預(yù)測(cè)常被表述為一個(gè)高分辨率的時(shí)間問(wèn)題,但在此項(xiàng)研究中,研究人員關(guān)注的是物體運(yùn)動(dòng)后的最終結(jié)果,而不是預(yù)測(cè)細(xì)粒度的物體運(yùn)動(dòng)軌跡。

研究人員認(rèn)為,關(guān)注未來(lái)關(guān)鍵時(shí)間的結(jié)果,有助于大大提高模型預(yù)測(cè)的準(zhǔn)確度和可靠性。

該研究團(tuán)隊(duì)開(kāi)發(fā)了一款名為“透視肌膚(STS,See-Through-Your-Skin)”的新型視覺(jué)-觸覺(jué)多模態(tài)傳感器,可以同時(shí)捕捉物體的視覺(jué)和觸覺(jué)特征數(shù)據(jù),并重建在1640×1232的高分辨率圖像中。

由于光學(xué)觸覺(jué)傳感器通常使用不透明和反光的涂料涂層,研究人員開(kāi)發(fā)了一種具有可控透明度的薄膜,使得傳感器能同時(shí)采集關(guān)于物理交互的觸覺(jué)信息和傳感器外部世界的視覺(jué)信息。

具體而言,研究人員通過(guò)改變STS傳感器的內(nèi)部照明條件,來(lái)控制傳感器的觸覺(jué)和視覺(jué)測(cè)量的占空比,從而設(shè)置了反光涂料層的透明度。

如上圖左上角所示,利用內(nèi)部照明可將傳感器表面變成透明,從而使得傳感器內(nèi)置攝像頭能直接采集傳感器外部世界的圖像;上圖的左下角顯示,傳感器也可以保持內(nèi)外一致的亮度,通過(guò)感知膜形變來(lái)采集物理交互觸覺(jué)信息。

借助STS傳感器和PyBullet模擬器,研究人員在動(dòng)態(tài)場(chǎng)景中快速生成大量物體交互的視覺(jué)觸覺(jué)數(shù)據(jù)集,用于驗(yàn)證其感知系統(tǒng)的性能。

受多模態(tài)變分自編碼器(MVAE)啟發(fā),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)生成式多模態(tài)感知系統(tǒng),在一個(gè)統(tǒng)一的MVAE框架內(nèi)集成了視覺(jué)、觸覺(jué)和3D Pose反饋。

MVAE可以解讀STS傳感器采集的視覺(jué)、觸覺(jué)數(shù)據(jù),將所有模態(tài)的物體關(guān)鍵信息映射到一個(gè)共享的嵌入空間,用于推斷物體在運(yùn)動(dòng)后最終的穩(wěn)定狀態(tài)。

實(shí)驗(yàn)結(jié)果表明,MVAE架構(gòu)可以被訓(xùn)練用于預(yù)測(cè)多模態(tài)運(yùn)動(dòng)軌跡中最穩(wěn)定和信息最豐富的元素。

三、不懼單一模態(tài)信息缺失,準(zhǔn)確預(yù)測(cè)物體未來(lái)狀態(tài)

該研究團(tuán)隊(duì)生成的視覺(jué)觸覺(jué)數(shù)據(jù)庫(kù)主要包含三種動(dòng)態(tài)模擬場(chǎng)景,分別是物體在平面上自由落體、物體在斜面上下滑、物體在靜止?fàn)顟B(tài)下收到外力擾動(dòng)。

下圖顯示了模擬三種動(dòng)態(tài)場(chǎng)景的示例集,頂部一行顯示3D Pose視圖,中間一行、底部一行分別顯示STS傳感器采集的視覺(jué)和觸覺(jué)結(jié)果。

bf4c4d28780e42c1bb1fa5e5e9bb9665.png

研究人員在三種模擬動(dòng)態(tài)場(chǎng)景和使用STS傳感器的真實(shí)實(shí)驗(yàn)場(chǎng)景中,分別驗(yàn)證了其動(dòng)力學(xué)模型的預(yù)測(cè)能力。

如下方圖表顯示,在三種模擬場(chǎng)景中的固定步和最終步預(yù)測(cè)中,相比僅依賴(lài)視覺(jué)(VAE-visual only)或僅依賴(lài)觸覺(jué)(VAE-tactile only)的單模態(tài)感知模型,多模態(tài)感知模型(MVAE)在驗(yàn)證集中的二進(jìn)制交叉熵誤差(BCE)均值更小,即預(yù)測(cè)結(jié)果的準(zhǔn)確性更高。

a8d1bf13e33c4f2d8ab42254125e4be3.png

研究人員還用基于高時(shí)間分辨率的模型進(jìn)行對(duì)比實(shí)驗(yàn),發(fā)現(xiàn)這一模型在預(yù)測(cè)物體最終靜止?fàn)顟B(tài)時(shí),準(zhǔn)確性要高于動(dòng)態(tài)模型。這是由于不確定性和錯(cuò)誤會(huì)隨著時(shí)間前向傳播,導(dǎo)致模糊和不精確的預(yù)測(cè)。

結(jié)果表明,在對(duì)中間狀態(tài)不感興趣的動(dòng)態(tài)場(chǎng)景中,該AI框架能以更高的準(zhǔn)確度來(lái)預(yù)測(cè)最終結(jié)果,而無(wú)需明確推理中間步驟。

此外,由于該研究方法破譯了觸覺(jué)、視覺(jué)、物體姿態(tài)之間的映射關(guān)系,因此即便某一模態(tài)信息缺失,比如缺乏觸覺(jué)信息時(shí),該框架仍然可以從視覺(jué)信息推測(cè)出視覺(jué)信息,從而預(yù)測(cè)物體運(yùn)動(dòng)后的最終落點(diǎn)。

135dbc0e477d4786b31a1c0ce71f9121.png

結(jié)語(yǔ):制造業(yè)自動(dòng)化將是運(yùn)動(dòng)預(yù)測(cè)的一大應(yīng)用場(chǎng)景

該研究團(tuán)隊(duì)的這項(xiàng)新成果能夠基于觸覺(jué)、視覺(jué)的雙模態(tài)數(shù)據(jù)對(duì)物體的運(yùn)動(dòng)軌跡進(jìn)行預(yù)判,并推測(cè)出物體的最終靜止?fàn)顟B(tài)。

相較于以往的運(yùn)動(dòng)預(yù)測(cè)技術(shù),該研究團(tuán)隊(duì)實(shí)現(xiàn)了觸覺(jué)和視覺(jué)數(shù)據(jù)的雙向推測(cè),為制造業(yè)的自動(dòng)化場(chǎng)景提供了更多的可能性。

比如,揀貨機(jī)器人能夠更準(zhǔn)確地判斷貨物的運(yùn)動(dòng)狀態(tài),從而提高拾取精度;貨架機(jī)器人能夠提前預(yù)判貨物的運(yùn)動(dòng)軌跡,從而防止貨物跌落破損,減少損失。

不過(guò),這項(xiàng)成果能夠預(yù)測(cè)的運(yùn)動(dòng)狀態(tài)還相對(duì)有限,我們期待研究團(tuán)隊(duì)對(duì)復(fù)雜的運(yùn)動(dòng)模式、多樣的物體形態(tài)進(jìn)行更多的模擬和技術(shù)攻關(guān)。

責(zé)任編輯:PSY

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    31711

    瀏覽量

    270515
  • 自動(dòng)化
    +關(guān)注

    關(guān)注

    29

    文章

    5641

    瀏覽量

    79721
  • 智能感知
    +關(guān)注

    關(guān)注

    2

    文章

    98

    瀏覽量

    17828
  • 運(yùn)動(dòng)物體
    +關(guān)注

    關(guān)注

    0

    文章

    4

    瀏覽量

    6748
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    字節(jié)跳動(dòng)發(fā)布OmniHuman 模態(tài)框架

    2 月 6 日消息,字節(jié)跳動(dòng)近日發(fā)布了一項(xiàng)重大成果 ——OmniHuman 模態(tài)框架,其優(yōu)勢(shì)在于其強(qiáng)大的視頻生成能力。用戶(hù)只需提供一張任意尺寸和人物占比的單張圖片,再結(jié)合一段輸入音頻,就能生成
    的頭像 發(fā)表于 02-07 17:50 ?382次閱讀

    【書(shū)籍評(píng)測(cè)活動(dòng)NO.55】AI Agent應(yīng)用與項(xiàng)目實(shí)戰(zhàn)

    的一些日程預(yù)測(cè)性地調(diào)整了今天的工作安排。 在近日的Agent OpenDay上,智譜AI展示了在AI Agent(智能體)方面最新成果,發(fā)布了用AI替代人類(lèi)執(zhí)行任務(wù)的三款智能體,分別是
    發(fā)表于 01-13 11:04

    超越人類(lèi)視覺(jué)!昱感微“多維像素”模態(tài)超級(jí)攝像頭方案產(chǎn)品賦超凡感知

    視覺(jué)——人只能感知所見(jiàn)目標(biāo)大概的距離/位置/速度以及外觀(guān)信息,并且受到天氣、光線(xiàn)等因素影響較大;昱感微“多維像素”模態(tài)感知方案的超級(jí)攝像
    的頭像 發(fā)表于 12-12 17:17 ?332次閱讀
    超越人類(lèi)視覺(jué)!昱感微“多維像素”<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>超級(jí)攝像頭方案產(chǎn)品賦<b class='flag-5'>能</b>超凡<b class='flag-5'>感知</b>力

    蘋(píng)果發(fā)布300億參數(shù)模態(tài)AI大模型MM1.5

    蘋(píng)果近日推出了全新模態(tài)AI大模型MM1.5,該模型擁有高達(dá)300億的參數(shù)規(guī)模,是在前代MM1架構(gòu)的基礎(chǔ)上進(jìn)一步發(fā)展而來(lái)的。
    的頭像 發(fā)表于 10-14 15:50 ?333次閱讀

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第4章-AI與生命科學(xué)讀后感

    研究的進(jìn)程。從蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)到基因測(cè)序與編輯,再到藥物研發(fā),人工智能技術(shù)在生命科學(xué)的各個(gè)層面都發(fā)揮著重要作用。特別是像AlphaFold這樣的工具,成功解決了困擾生物學(xué)界半個(gè)世紀(jì)的蛋白質(zhì)折疊問(wèn)題,將
    發(fā)表于 10-14 09:21

    智譜AI發(fā)布全新模態(tài)開(kāi)源模型GLM-4-9B

    近日,智譜AI在人工智能領(lǐng)域取得重大突破,成功推出全新開(kāi)源模型GLM-4-9B。這款模型以其卓越的模態(tài)能力,再次刷新了業(yè)界對(duì)于大型語(yǔ)言模型的認(rèn)識(shí)。
    的頭像 發(fā)表于 06-07 09:17 ?834次閱讀

    Build 2024發(fā)布多項(xiàng)Azure AI Speech全新模態(tài)功能

    客戶(hù)們持續(xù)使用 Azure OpenAI 和 Azure AI Speech 進(jìn)行創(chuàng)新,為企業(yè)引入新的效率,并構(gòu)建新的模態(tài)體驗(yàn)。
    的頭像 發(fā)表于 05-28 09:08 ?642次閱讀
    Build 2024發(fā)布多項(xiàng)Azure <b class='flag-5'>AI</b> Speech<b class='flag-5'>全新</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>功能

    谷歌發(fā)布模態(tài)AI新品,加劇AI巨頭競(jìng)爭(zhēng)

    在全球AI競(jìng)技場(chǎng)上,谷歌與OpenAI一直穩(wěn)居領(lǐng)先地位。近日,谷歌在I/O開(kāi)發(fā)者大會(huì)上掀起了一股新的技術(shù)浪潮,發(fā)布了多款全新升級(jí)的模態(tài)AI
    的頭像 發(fā)表于 05-16 09:28 ?496次閱讀

    李未可科技正式推出WAKE-AI模態(tài)AI大模型

    文本生成、語(yǔ)言理解、圖像識(shí)別及視頻生成等模態(tài)交互能力。 ? 該大模型圍繞 GPS 軌跡+視覺(jué)+語(yǔ)音打造新一代 LLM-Based的自然交互,同時(shí)
    發(fā)表于 04-18 17:01 ?672次閱讀
    李未可科技正式推出WAKE-<b class='flag-5'>AI</b><b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>AI</b>大模型

    開(kāi)發(fā)者手機(jī) AI - 目標(biāo)識(shí)別 demo

    應(yīng)用的demo。 應(yīng)用程序通過(guò)相機(jī)進(jìn)行預(yù)覽,對(duì)預(yù)覽畫(huà)面中的物體進(jìn)行目標(biāo)識(shí)別,目前該應(yīng)用程序支持識(shí)別100種物體。 系統(tǒng)架構(gòu) 下圖為demo應(yīng)用以及Openharmony AI子系統(tǒng)的架構(gòu)圖。 目標(biāo)
    發(fā)表于 04-11 16:14

    未來(lái)已來(lái),傳感器融合感知是自動(dòng)駕駛破局的關(guān)鍵

    駕駛的關(guān)鍵的是具備人類(lèi)的感知能力,傳感器融合感知正是自動(dòng)駕駛破局的關(guān)鍵。昱感微的雷視一體傳感器融合方案就好像一雙比人更敏銳的眼睛,可以
    發(fā)表于 04-11 10:26

    NVIDIA Edify為視覺(jué)內(nèi)容提供商帶來(lái)3D生成式AI全新圖像控件

    用于視覺(jué)生成式 AI模態(tài)架構(gòu) NVIDIA Edify 正在邁入全新維度。
    的頭像 發(fā)表于 03-26 09:49 ?914次閱讀

    谷歌推出模態(tài)VLOGGER AI

    谷歌最新推出的VLOGGER AI技術(shù)引起了廣泛關(guān)注,這項(xiàng)創(chuàng)新的模態(tài)模型能夠讓靜態(tài)肖像圖“活”起來(lái)并“說(shuō)話(huà)”。用戶(hù)只需提供一張人物肖像照片和一段音頻內(nèi)容,VLOGGER AI就能讓圖
    的頭像 發(fā)表于 03-22 10:45 ?919次閱讀

    字節(jié)跳動(dòng)被曝正秘密研發(fā)多個(gè)AI產(chǎn)品

    據(jù)多位知情人士透露,科技巨頭字節(jié)跳動(dòng)正在人工智能(AI)大模型領(lǐng)域秘密研發(fā)多個(gè)創(chuàng)新產(chǎn)品。其中,模態(tài)數(shù)字人產(chǎn)品備受矚目,該產(chǎn)品將結(jié)合先進(jìn)的AI
    的頭像 發(fā)表于 03-05 11:22 ?1103次閱讀

    MWC2024:高通推出全新AI Hub及前沿模態(tài)大模型

    2024年世界移動(dòng)通信大會(huì)(MWC)上,高通再次展現(xiàn)其技術(shù)領(lǐng)導(dǎo)力,通過(guò)發(fā)布全新的高通AI Hub和展示前沿的模態(tài)大模型技術(shù),推動(dòng)了5G和AI
    的頭像 發(fā)表于 02-26 16:59 ?1360次閱讀
    主站蜘蛛池模板: av在线色| 美女视频一区 | 免费网站成人亚洲 | 免费观看视频在线 | 日本三级hd高清电影 | 在线观看一二三区 | 青青热久久国产久精品秒播 | 婷婷射丁香| 亚洲第一网站 | 快色视频在线观看 | 久久精品国产99精品最新 | 夜夜夜夜夜夜夜工噜噜噜 | 国产热re99久久6国产精品 | 迅雷www天堂在线资源 | 日本69sex护士xxx | 久久频这里精品99香蕉久网址 | 高清一区二区在线观看 | 久久青草国产手机看片福利盒子 | 亚洲色图 欧美 | 久久精品9 | 日韩电影中文字幕 | 免费高清一级欧美片在线观看 | 国产黄色小视频 | 免费一级毛片不卡在线播放 | 天天射天 | 亚洲三级电影 | 狠狠色伊人亚洲综合第8页 狠狠色依依成人婷婷九月 狠狠色影院 | 久碰香蕉精品视频在线观看 | 午夜骚 | 天堂网视频 | 天天射天天搞 | 欧美日韩亚洲国内综合网俺 | 国产女人伦码一区二区三区不卡 | 亚洲综合黄色 | ts人妖系列在线专区 | 亚洲黄色天堂 | 2021国产精品午夜久久 | 日本高清视频在线www色 | 97色在线视频观看香蕉 | 四虎免费永久观看 | 丁香六月五月婷婷 |