在加拿大作家瑪格麗特?阿特伍德的著作《盲人殺手》中有這樣一段描述:“觸覺,先于視覺也先于語言,既是第一語言也是最后的語言,并總是訴說真相。”
被編寫為視覺或者觸覺的機器人一般不能實現(xiàn)此兩種感官信息的交互。為打破這種隔絕,來自MIT(麻省理工學(xué)院)CSAIL(計算機科學(xué)與人工智能實驗室)的研究團隊提出了一種可預(yù)測AI,它可以通過觸覺信息的訓(xùn)練學(xué)習到視覺特征,反之亦然,也能通過視覺信息的訓(xùn)練學(xué)習到物體的觸覺特征。
該團隊所提出的模型可以從視覺信號中“創(chuàng)造”出逼真的觸覺信號,并直接利用觸覺信息預(yù)測所檢測目標及觸摸部位。他們使用的庫卡機械臂上裝有一個特殊的觸覺傳感器GelSight,這是由MIT的另一研究團隊設(shè)計的。
該團隊利用一個簡單的網(wǎng)絡(luò)攝像頭采集了近200種物體圖像,包括工具、家庭用品、紡織物等,這些物體被“觸摸”超過12000次。通過將這12000個小視頻分解為靜態(tài)幀從而生成了名為“VisGel”的數(shù)據(jù)集,該數(shù)據(jù)集包含300多萬個視覺-觸覺對應(yīng)的圖像。
CSALL博士生Yunzhu Li在其一篇相關(guān)論文中談到:“通過觀察觸摸情景,我們的模型可以“想象”出觸摸平坦表面或者尖銳邊緣的感覺”,“當機器人只有觸覺感官的時候,此模型可以僅憑觸覺信號來完成和周圍環(huán)境的交互。將觸覺和視覺這兩種感官結(jié)合在一起無疑是錦上添花。它還可能減少機器人為完成抓取任務(wù)所需的數(shù)據(jù)集”。
目前使能機器人具備更多感官能力的研究,比如MIT在2016年的項目:利用深度學(xué)習實現(xiàn)聲音可視化、預(yù)測物體對外力反應(yīng),都使用了大量的訓(xùn)練數(shù)據(jù),但不能實現(xiàn)視覺和觸覺的交互。該團隊使用VisGel數(shù)據(jù)集和生成式對抗網(wǎng)絡(luò)(GANs)實現(xiàn)上述功能。
此GANs算法利用視覺或觸覺的圖像生成其他形式的圖像。其原理簡而言之,就是GANs利用生成器(generator)捏造假的圖像試圖騙過判別器(discriminator),判別器將辨別結(jié)果反饋給生成器以調(diào)參,以使得生成器生成更高質(zhì)量的預(yù)期圖像,如此相得益彰。
所見即所觸
人可以通過觀察物體來判斷其手感,欲將這種能力賦予機器人,首先要標定目標位置,其次要推斷目標區(qū)域的形狀和手感。
為此,需要一張參考圖像,它記錄了機器人沒有與外界交互時的所處的環(huán)境信息。模型在識別過程中會對比當前捕捉到的幀圖像和參考圖像以輕松判斷所觸物體的位置和大小。
好比給模型“看”了一張鼠標的圖像,模型將預(yù)測可能觸碰到鼠標的區(qū)域,并告訴機器人從而使其實現(xiàn)安全高效的抓取任務(wù)。
所觸即所見
利用觸覺數(shù)據(jù)產(chǎn)生視覺圖像即所謂“所觸即所見”。模型通過觀察觸覺圖像推斷所接觸位置的物體形狀和材質(zhì),并和參考圖像對比進而“想象”出交互過程。
舉個例子,將一只鞋的觸覺數(shù)據(jù)傳給模型,其輸出將是一張圖像,這張圖像則顯示了最有可能觸摸到這只鞋的區(qū)域位置。
當燈被關(guān)掉,或者盲人進入未知區(qū)域的時候,這種技能就可以發(fā)揮其作用了。
展望
目前的訓(xùn)練數(shù)據(jù)只能實現(xiàn)特定環(huán)境下的交互。該團隊希望收集更復(fù)雜環(huán)境下的訓(xùn)練數(shù)據(jù)以提升模型的泛化性能。MIT的新設(shè)計——tactile glove或許可以幫助他們獲取更多更密集的訓(xùn)練數(shù)據(jù)。
翹首以盼,此類模型將協(xié)助機器人和其視覺緊密合作以實現(xiàn)無縫的人機交互。這些合作包括對象識別、抓取、場景理解等。
加州大學(xué)伯克利分校的博士后Andrew Owens說:“這是首次提出的視覺和觸覺信號可靠的轉(zhuǎn)換方法,此類方法于機器人而言將大有裨益,彼時,它們就可以回答諸如‘這東西的硬度如何?’,‘如果我用手柄握住馬克杯,我會握得多好?’的問題,這是一個十分有挑戰(zhàn)性的項目,因為問題的信號是如此的不同,其優(yōu)越性也可見一斑”。
李和MIT的教授Russ Tedrake 、 Antonio Torralba,博士后Jun-Yan Zhu共同完成這篇論文。它將于下周在加利福尼亞長沙灘上舉辦的計算機視覺及模式識別大會上發(fā)布。
-
人工智能
+關(guān)注
關(guān)注
1804文章
48584瀏覽量
245851 -
MIT
+關(guān)注
關(guān)注
3文章
254瀏覽量
24164
原文標題:所見即所觸,教AI實現(xiàn)觸覺和視覺的信息交互
文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
上海交大團隊發(fā)表MEMS視觸覺融合多模態(tài)人機交互新進展

嵌入式和人工智能究竟是什么關(guān)系?
如何利用FPGA技術(shù)革新視覺人工智能應(yīng)用?

評論