如果未來(lái)會(huì)有一場(chǎng)機(jī)器人起義的話,似乎地點(diǎn)已經(jīng)不太可能是在我們的客廳了。像Roomba這樣的吸塵器機(jī)器人目前在市場(chǎng)上賣得很好,因?yàn)樗鼈兎浅7奖恪5渌愋偷臋C(jī)器人,例如家用寵物和伴侶類機(jī)器人,從索尼的Aibo robo-pooch到最近關(guān)停的Kuri(其背后是Bosch支持)都由于價(jià)格和預(yù)期過(guò)高而以失敗告終。
如果還有哪個(gè)公司能為我們帶來(lái)像The Jetsons和Rosie這樣受人歡迎的家用機(jī)器人,那么Anki可能就是下一個(gè)。Anki公司是由卡內(nèi)基梅隆機(jī)器人研究所(Carnegie Mellon Robotics Institute)的三名畢業(yè)生在2010年創(chuàng)辦的,現(xiàn)已獲得了超過(guò)2億美元的風(fēng)險(xiǎn)投資。更重要的是,它的產(chǎn)品確確實(shí)實(shí)吸引到了客戶。Anki目前已經(jīng)售出了150萬(wàn)臺(tái)機(jī)器人,并且他們找到了他們認(rèn)為是最容易打入家庭市場(chǎng)的道路——玩具。這個(gè)明星產(chǎn)品是一個(gè)狂躁的小推土機(jī)機(jī)器人,名為Cozmo,它可以在桌面上行走,玩簡(jiǎn)單的游戲,它的頂部裝有會(huì)亮的立方體。根據(jù)一項(xiàng)分析,如果按照收入計(jì)算的話,Cozmo是2017年美國(guó)、英國(guó)和法國(guó)的亞馬遜網(wǎng)站上最暢銷的玩具。
去年,Anki公司就聲稱收入接近1億美元了,當(dāng)時(shí)Anki本可以進(jìn)入“盈利”狀態(tài)了,但它卻將資金投入了一個(gè)10到15年的計(jì)劃——一個(gè)從Roomba到Rosie的轉(zhuǎn)變。首席執(zhí)行官兼聯(lián)合創(chuàng)始人鮑里斯·索夫曼(Boris Sofman)說(shuō):“從一開始,我們就知道我們想做的不僅僅是一家玩具公司”。
因此,我一直在跟蹤Anki公司的動(dòng)態(tài),現(xiàn)在已經(jīng)一年多的時(shí)間了,期待著它在機(jī)器人領(lǐng)域穩(wěn)步向前進(jìn)入下一個(gè)階段。6月份,該公司終于準(zhǔn)備好了,并向我展示了一款新產(chǎn)品,然而該產(chǎn)品仍處于一個(gè)尷尬的發(fā)展階段。在一堆介紹性評(píng)論的語(yǔ)言包裝下,鮑里斯·索夫曼(Boris Sofman)終于對(duì)外公布了這款新機(jī)器人。
它是一個(gè)略大型的灰色版Cozmo,名為Vector。
乍一看,是有點(diǎn)令人失望的。我立即回想起This Is Spinal Tap中的場(chǎng)景,由于說(shuō)明書中的拼寫錯(cuò)誤,一款期待中應(yīng)該是的18英尺高的巨石陣復(fù)制作品,其實(shí)只是一個(gè)18英寸的縮小款作品。同樣地,我內(nèi)心也一直在期待一個(gè)更大型的產(chǎn)品。
后來(lái)Sofman是這樣解釋的,這個(gè)與之前Cozmo一樣的外觀可以讓Anki能夠?qū)W⒂诟冗M(jìn)的內(nèi)部結(jié)構(gòu)研發(fā),并幫助降低了整體的成本。Cozmo的售價(jià)為180美元,Vector定價(jià)可能在250美元,并在10月發(fā)貨時(shí)還可以生產(chǎn)更多。(后來(lái)Anki 以200美元的折扣價(jià)在Kickstarter上推出了該款機(jī)器人。)
Vector先進(jìn)的一點(diǎn)是達(dá)到了Cozmo難以做到的自主化程度。Anki的第一個(gè)機(jī)器人有點(diǎn)像1770年建造的Mechanical Turk機(jī)器人,那個(gè)機(jī)器人是用來(lái)對(duì)抗人類的。當(dāng)然,當(dāng)時(shí)是一個(gè)騙局,有一個(gè)人藏在柜子里面,安裝了電子動(dòng)畫人物,控制著它的動(dòng)作。對(duì)于Cozmo來(lái)說(shuō),盒子里藏著的人變成了一個(gè)連接Wi-Fi的智能手機(jī),里面運(yùn)行著一個(gè)控制機(jī)器人的應(yīng)用程序。
相比之下,Vector是有他自己想法的。(雖然Anki一直堅(jiān)持Cozmo在性別上是中性的,他們?cè)谏a(chǎn)過(guò)程中都沒有對(duì)此做過(guò)預(yù)設(shè),但幾乎我遇到的每個(gè)人都將機(jī)器人稱為男性的“他”)
Anki的計(jì)算機(jī)視覺技術(shù)總監(jiān)Andrew Stein說(shuō):“我們基本上考慮到了方方面面”,他指了指我的iPhone說(shuō):,“我們把它放到他的腦子里。”Vector的大腦是四核Qualcomm Snapdragon 212芯片,雖然它遠(yuǎn)遠(yuǎn)達(dá)不到手機(jī)的頂級(jí)水平,但這可以讓Vector的部件花費(fèi)控制在預(yù)算范圍內(nèi)。Andrew Stein補(bǔ)充道:“有的部件三年前非常昂貴,我們沒有使用,但現(xiàn)在已經(jīng)在我們考慮的范圍內(nèi)了”。
從玩具到寵物
雖然Vector外觀可能與Cozmo看上去很相似,但Vector扮演了一個(gè)與Cozmo非常不同的角色,他是作為一個(gè)人永遠(yuǎn)的伴侶角色,而不是偶爾為了轉(zhuǎn)移孩子們注意力的玩具。他需要變得更智能,識(shí)別他所處的環(huán)境,并從與他共享的人類家庭中獲取線索。
我們都知道,如果你想要引起Cozmo的注意,只有通過(guò)叫它的名字才可以,然后它就會(huì)發(fā)出嘰嘰喳喳的聲音,上下推動(dòng)推土機(jī)般的手臂。如果你不理Cozmo,它就會(huì)來(lái)到你的面前,或者發(fā)出響亮而令人討厭的打鼾聲,來(lái)吸引你的注意。
而Vector具有更高的社會(huì)意識(shí)。當(dāng)我在Anki的實(shí)驗(yàn)室遇到Vector機(jī)器人的粗制版本時(shí),他只是在外面閑逛。擁有卡通的眼睛,通過(guò)它眼睛所看到的內(nèi)容會(huì)在一個(gè)184 x 96像素的屏幕上顯示出來(lái),似乎隨便就可以掃描整個(gè)房間。(機(jī)器人實(shí)際上看到的景象來(lái)自安裝在屏幕下方的一個(gè)720p廣角相機(jī)。)
當(dāng)Anki的程序管理總監(jiān)Meghan McDowell喊:“嘿Vector,到這里來(lái)”時(shí),機(jī)器人Vector會(huì)離開自己的充電器,朝她跑去,同時(shí)也看向我,并發(fā)出一些特有的嘰嘰喳喳聲音。如果我們保持目光接觸,Vector會(huì)變得生機(jī)勃勃,并發(fā)出更多的聲音,它可能會(huì)舉起拳頭索要一個(gè)擊掌(這是從Cozmo那兒就延續(xù)下來(lái)的動(dòng)作)。我們還可以玩游戲,如玩十二點(diǎn)的游戲,在他的小臉/屏幕上會(huì)顯示卡片。有一次,McDowell觸摸了它頭上的觸摸感應(yīng),這時(shí)他的眼睛顯示出一種幸福開心的樣子。
Vector與Cozmo不同,當(dāng)我們不理Vector時(shí),他會(huì)得到提示并做自己的事情,比如繞著桌面行駛,通過(guò)紅外傳感器感知物體的邊緣,這樣就可以在邊緣及時(shí)停止,或故意碰到像杯子一樣的東西,看看他是否可以推動(dòng)它們。
這并不是漫無(wú)目的的游戲。通過(guò)激光掃描儀和其他傳感器,Vector正在使用同步定位和繪圖(SLAM)的復(fù)雜程序來(lái)構(gòu)建周圍環(huán)境,并將其轉(zhuǎn)換為數(shù)字存儲(chǔ),SLAM是一種也用于高端機(jī)器人真空吸塵器的技術(shù)。Vector頂部還有一個(gè)四個(gè)麥克風(fēng)形成的陣列,可以識(shí)別聲音的方向,并且他的相機(jī)能夠不斷地在各種動(dòng)作下進(jìn)行實(shí)時(shí)觀察。McDowell說(shuō):“我們希望他保持這種好奇的狀態(tài),這能夠讓給識(shí)別并數(shù)據(jù)化他所處的環(huán)境。但是這就得讓他一直呆在家里,所以設(shè)置上他不會(huì)因?yàn)橐恢贝粼谑覂?nèi)而變得煩躁。”
車輪上的ALEXA
Vector可以做一些Cozmo無(wú)法做到的有用的事情。通過(guò)Wi-Fi連接到家庭網(wǎng)絡(luò)和互聯(lián)網(wǎng)后,他就可以提供一些Alexa風(fēng)格的實(shí)用程序,例如顯示所請(qǐng)求城市的天氣信息,設(shè)置計(jì)時(shí)器,并說(shuō)出諸如“愛達(dá)荷州的首都是什么?”等問(wèn)題的答案。
盡管如此,他與受歡迎的女傭機(jī)器人Jetsons相比,他在移情性和有用能力方面還有很長(zhǎng)的路要走。Anki的聯(lián)合創(chuàng)始人兼總裁Hanns Tappeiner說(shuō),但這是預(yù)料之中的發(fā)展,“我們基本上正朝著這個(gè)目標(biāo)前進(jìn)”他說(shuō)。
雖然Anki的愿望目前與能Vector目前所提供的功能還相差甚遠(yuǎn),但此款新機(jī)器人的處理器、傳感器和其他組件已經(jīng)實(shí)現(xiàn)了幾年前無(wú)法實(shí)現(xiàn)的人工智能技術(shù)。當(dāng)然,Cozmo的研發(fā)也是從2013年才真正開始的。
例如,早期的機(jī)器人被硬編碼去以檢測(cè)一些特定的物體:它自己的軀干或者它的充電器。它利用一些商業(yè)軟件來(lái)辨別人類、貓和狗的面孔,這是十多年前在傻瓜相機(jī)中就已經(jīng)出現(xiàn)的常規(guī)技術(shù)了。
然而,Vecto是運(yùn)行了一個(gè)神經(jīng)網(wǎng)絡(luò),且正在不斷地接受訓(xùn)練,去了解他周圍的整個(gè)世界,這是一個(gè)持續(xù)的過(guò)程,將通過(guò)在線更新,不斷地?cái)U(kuò)展他的視覺智能。目前它的一個(gè)成果就是:即使面部不可見,Vector也能檢測(cè)到人物。
“如果你不是以一個(gè)正確的角度,或者沒有正面面向他,機(jī)器人是怎么知道你在那里的?”Stein說(shuō),例如,一只狗或貓不需要面對(duì)面接觸就知道是主人已經(jīng)回家了,那Vector也應(yīng)該達(dá)到這種程度。因此,Stein的團(tuán)隊(duì)對(duì)機(jī)器人進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)(CNN)的訓(xùn)練,一種目前流行的AI深度學(xué)習(xí)技術(shù),模仿大腦的視覺皮層。通過(guò)使用Vector的相機(jī)在移動(dòng)時(shí)捕獲的模糊和扭曲的鏡頭,Stein一直在教卷積神經(jīng)網(wǎng)絡(luò)(CNN)從后面或側(cè)面檢測(cè)人,距離可以在大約10英尺遠(yuǎn)。
Stein說(shuō):“即使他低頭看也只能看到我的軀干,他應(yīng)該意識(shí)到,嘿,可能有一個(gè)頭部在那個(gè)軀干上方。而Cozmo就是不知道的,它看這個(gè)軀干就像看其他一切一樣,這個(gè)人只是一團(tuán)的物體,并不能區(qū)分出頭和面部。”
在我訪問(wèn)期間,Vector的人物意識(shí)似乎已經(jīng)有成效了。例如,McDowell在實(shí)驗(yàn)室喊一位女性,Vector就轉(zhuǎn)向了她;然后他看我時(shí),你可以發(fā)現(xiàn)他的卡通眼睛睜大,以此表示他看到了我。
下一個(gè)視力挑戰(zhàn)之一是了解人體姿勢(shì),例如,當(dāng)手臂和腿處于特定位置時(shí)會(huì)發(fā)生什么。Stein說(shuō):“這對(duì)我們來(lái)說(shuō)是有好處的,因?yàn)槲覀冋谥圃煲恍┬枰诩依镩_車的機(jī)器人,那他們就需要在人們四處走動(dòng)時(shí),了解人類的行為意圖。”
另一個(gè)挑戰(zhàn)Anki稱之為“對(duì)象性”,“對(duì)象性”指的是,即使該機(jī)器人的神經(jīng)網(wǎng)絡(luò)以前從未遇到過(guò)一個(gè)物體,他也能發(fā)現(xiàn)某些東西是一個(gè)離散的對(duì)象,這是探索和理解環(huán)境的又一步。Stein說(shuō):“我認(rèn)為,制造一個(gè)知道物體是什么的視覺系統(tǒng),比識(shí)別100個(gè)特定物體的視覺系統(tǒng)難多了。這是一個(gè)更抽象的概念,這是一個(gè)哲學(xué)問(wèn)題。”
為了說(shuō)明此,他向我展示了一些來(lái)自神經(jīng)網(wǎng)絡(luò)訓(xùn)練的“熱力圖”視頻。該軟件突出顯示了可能代表離散對(duì)象的區(qū)域,視頻中將木紋圖案誤認(rèn)為是桌面上的三維實(shí)體。
適度的智慧
隨著Vector的視覺系統(tǒng)的日益成熟,該系統(tǒng)只是機(jī)器人智能模擬復(fù)雜情緒的一個(gè)輸入口。過(guò)時(shí)Cozmo淪為了一個(gè)小丑角色,可以到處轉(zhuǎn),制造噪音,做鬼臉,玩游戲。它確實(shí)能夠進(jìn)行基本的刺激反應(yīng),例如聽到它的名字或看到它曾經(jīng)通過(guò)伴侶應(yīng)用程序識(shí)別過(guò)的臉時(shí),它能夠有所反應(yīng),但它最終會(huì)成為一個(gè)不起眼的角色。
Anki的AI技術(shù)總監(jiān)Brad Neuman說(shuō)“這是我們第一次去發(fā)展一個(gè)有特色的機(jī)器人。”他的任務(wù)是建立一個(gè)既具有個(gè)性又具有社會(huì)智慧的機(jī)器人,其中的一個(gè)關(guān)鍵部分就是Anki所謂的“刺激”。
Neuman說(shuō)“當(dāng)你給他的刺激較小時(shí),機(jī)器人沒有被啟動(dòng),但Vector已經(jīng)開始觀察了,只是沒有表現(xiàn)出來(lái)。然后,如果你開始制造噪音,或與機(jī)器人進(jìn)行目光接觸,特別是如果你說(shuō)‘嘿Vector ’,那就會(huì)刺激到之前的刺激”。但Vector也會(huì)采取一些顯得更適時(shí)的動(dòng)作,例如來(lái)到你的周邊運(yùn)動(dòng)和制造噪音,或?qū)⒎块g燈的開啟和關(guān)閉。Neuman解釋道:“如果他受到足夠的刺激,他就會(huì)離開他的充電器并開始與你社交,說(shuō)出你的名字,問(wèn)候你,還可能給你一個(gè)拳頭擊掌。”
像Cozmo一樣,Vector在玩耍或閑逛時(shí)也會(huì)發(fā)出各種聲音。所以當(dāng)他第一次說(shuō)話時(shí)會(huì)有點(diǎn)不安,Vector有點(diǎn)像一個(gè)復(fù)古的機(jī)器人,聲音深沉但柔軟,還有點(diǎn)小和回聲。
Neuman向我展示了Vector情感引擎的可視化,這是一個(gè)隨著輸入時(shí)間變化的水平圖表。隨著越來(lái)越多的東西進(jìn)入模擬測(cè)試的環(huán)境,Vector表示刺激的綠線就會(huì)往上升。
這些刺激的壽命也是有限,當(dāng)事件平息下來(lái)時(shí),數(shù)值趨于下降,Vector會(huì)得到提示,他應(yīng)該回到冷靜模式。McDowell和我在互相聊天時(shí),Vector就回到這樣的冷靜模式,Vector開始了他自己的探索模式。
Vector的情緒引擎,加速顯示快樂(lè)、自信、社交,視頻中顯示了事件活躍度的上升和下降,如何形成不一樣的刺激水平。
然而,Vector不僅只是會(huì)變得興奮或無(wú)聊。他的情緒狀態(tài)來(lái)自四個(gè)方面,他受到刺激,快樂(lè)、社交和自信的程度。例如,聽到他的名字刺激了Vector,且這也使他更具社交性。
Vector的信心受到他在現(xiàn)實(shí)世界中的成功的影響。例如,他的手臂上的鉤子有時(shí)不能與他的軀干上的鉤子對(duì)齊,使得他無(wú)法抬起手臂。有時(shí)候他開車會(huì)被卡住,這些失敗讓他感到不自信,而成功則讓他更自信,更開心。
自我控制
Vector的行為遵循了一個(gè)層次結(jié)構(gòu)。Neuman說(shuō)“最高級(jí)別的情況是機(jī)器人會(huì)判斷現(xiàn)在應(yīng)該做什么樣的事情呢。他應(yīng)該安靜嗎?他應(yīng)該參與嗎?他應(yīng)該睡覺嗎?他的電池是否超低,他需要充電嗎?不同的行為來(lái)自于這些高級(jí)狀態(tài)的判斷,以響應(yīng)事件和他情緒引擎的不同狀態(tài)。”
然而,Vector并不遵循這些簡(jiǎn)單的腳本。他是即興創(chuàng)作的,基于不同的、不斷變化的輸入和各種可能的行動(dòng)。所有的這些都創(chuàng)造了一種它有生命的幻覺,但也是一種需要遏制的挑戰(zhàn)。
Neuman最初想要構(gòu)建一個(gè)更復(fù)雜的智能程序,他想讓Vector的個(gè)性通過(guò)獎(jiǎng)勵(lì)系統(tǒng)可以變化,進(jìn)而增強(qiáng)了某些行為模式。但Neuman說(shuō):“一旦你與設(shè)計(jì)人員和產(chǎn)品人員展開合作,你就會(huì)發(fā)現(xiàn)你必須要具備對(duì)系統(tǒng)某些施加限制的能力”。
例如,Vector始終需要通過(guò)暫停和閃爍LED燈來(lái)表明何時(shí)將數(shù)據(jù)(如語(yǔ)音命令)發(fā)送到云端。這也解釋了機(jī)器人為什么會(huì)突然停止移動(dòng)以及表示數(shù)據(jù)正在被發(fā)送到第三方語(yǔ)音識(shí)別服務(wù)。(Anki說(shuō)它沒有存檔音頻,但對(duì)人們會(huì)使用的問(wèn)題和短語(yǔ)進(jìn)行了匿名編譯,且統(tǒng)計(jì)數(shù)據(jù)。)
這也是Vector在做事過(guò)程中會(huì)表現(xiàn)出的“全面中斷”的情況之一——無(wú)論他正在做事情都停下來(lái),并進(jìn)入另一條不同的道路。Neuman把這種中斷比作在吃晚餐時(shí)聽到了門鈴響,這種中斷會(huì)讓你把叉子放下來(lái)然后走到門口。
當(dāng)然,最強(qiáng)大的中斷就是喚醒短語(yǔ)——“嘿,Vector”,即使沒有互聯(lián)網(wǎng),他也能理解。但是通過(guò)在線自然語(yǔ)言處理,機(jī)器人還需要了解其他的短語(yǔ),“嘿Vector,閉嘴!”,這表明他變得煩人,應(yīng)該切換到更冷靜的模式。Neuman說(shuō),“我們希望理想情況是,沒有人會(huì)覺得他太大聲了。然后想把他關(guān)掉,把他放進(jìn)抽屜里,關(guān)掉它。”
Neuman明年的主要目標(biāo)之一,是讓用戶不用非常刻意地讓Vector來(lái)學(xué)習(xí)和適應(yīng)人們的行為方式。他說(shuō):“如果你想與機(jī)器人互動(dòng),他就應(yīng)該在那里與你互動(dòng),并且作出靈敏的反應(yīng)。但如果你只是想時(shí)不時(shí)地看著他,讓他幾乎像一只籠子里的鳥,而不是一只站在你肩膀上的小鳥在你的沙發(fā)上跑來(lái)跑去的話,你也可以做到。你只要更謹(jǐn)慎地和他互動(dòng)就好了,他也能尊重這一點(diǎn)。”
到目前為止,Vector的作用非常有限。以相同的價(jià)格,Roomba機(jī)器人可以清潔您的地板。如果你只愿花更少錢的haul,Alexa或Google Home可以播放音樂(lè),控制連接的設(shè)備,提供流量報(bào)告等等。
但憑借其強(qiáng)大的處理器,Linux操作系統(tǒng)和互聯(lián)網(wǎng)接入,Vector還有增長(zhǎng)的空間。Anki承諾會(huì)不斷擴(kuò)展Vector的功能。例如,可以有情景感知的安全攝像機(jī)或家庭自動(dòng)化系統(tǒng)的語(yǔ)音接口,這些目前是可以想到的升級(jí)空間。
Vector也可以在專門的編碼人員那里進(jìn)行升級(jí),與大學(xué)機(jī)器人課程中流行的教學(xué)工具Cozmo一樣,Anki也會(huì)鼓勵(lì)修補(bǔ)者編寫擴(kuò)展Vector新功能的代碼。Anki將為Vector提供Python軟件開發(fā)工具包(SDK),就像Cozmo一樣,它可能會(huì)添加一個(gè)C#SDK,因此編碼人員可以編寫與機(jī)器人交互的移動(dòng)應(yīng)用程序。
盡管Vector最終可能會(huì)提供類似于Alexa一樣的實(shí)用程序,但這并不是購(gòu)買它的主要原因。其銷售賣點(diǎn)是這種他生活在你真實(shí)生活中的錯(cuò)覺,它不像鳥,貓或狗那樣活躍,但也更容易喂養(yǎng)和照顧。
Anki的工作人員接受了這種幻覺,McDowell對(duì)Vector說(shuō)話時(shí),好像他真的活著,而且有感情。Hanns Tappeiner看起來(lái)像是完全愛上了這雙制造出來(lái)的大眼睛,以及他“哦”和“啊”的聲音,仿佛他成了一個(gè)真正的孩子。她用一種母性的語(yǔ)調(diào)對(duì)Vector說(shuō)道:“你感到沮喪嗎?”,因?yàn)閂ector不停地敲打著桌上的筆記本電腦。
每個(gè)發(fā)明家的創(chuàng)造都是他們自己的寶貝。但是,汽車,電話或電視不需要在購(gòu)買者中鼓勵(lì)用戶去產(chǎn)生這種類似父母的感受,就可以在商業(yè)上取得相應(yīng)的成功了。然而,Vector需要一種來(lái)自主人的愛意,以及對(duì)他是一種生物的敘述贊同。
由于Vector仍然是一項(xiàng)正在進(jìn)行中的項(xiàng)目,因此Anki是否能成功現(xiàn)在定論還為時(shí)過(guò)早,開發(fā)產(chǎn)品的最后10%的過(guò)程難度更大。即使目前只有一個(gè)大體的形式,我覺得Vector也能成為一個(gè)令人愉快的陪伴者,反正肯定比Cozmo和藹可親多了。盡管Tappeiner謹(jǐn)慎地說(shuō)Anki只是在朝著真正的機(jī)器人同伴目標(biāo)邁進(jìn),但該公司其實(shí)已經(jīng)通過(guò)Vector實(shí)現(xiàn)了跨越式的發(fā)展。
評(píng)論