從1945年到2015年,以人工智能為題講述了許多很美的故事,模仿游戲便是其實之一。但春冬輪回,在人工智能的世界里,人們的幻想像一個小球一樣,被拋得高高,也注定摔得慘慘(1974與1987年兩次人工智能寒冬)。
這一次,人們對人工智能的幻想被扔得更高了。強人工智能、機器毀滅人類的說法時常有。但這更像是預言家的說法,像陰謀論。目前的人工智能還是基于邏輯與數據、沒有直覺,對情感的理解與創造力更是無從談起。
球被拋得高就一定會落得慘,甚至摔得粉碎。不過,做工程的人更謹慎些,要給這個球栓上一根繩子。這根繩子就是“從實際應用出發、從用戶角度考慮”。
語音語義的現狀可以大致描繪人工智能在工程界的應用情況。有自主語音語義相關技術且可以在國內使用其服務的幾家公司有:出門問問、科大訊飛、云知聲、思必馳、百度(度秘)、騰訊(騰訊小鯨)以及Google(Google Now)、微軟(小冰、小娜Cortana)、蘋果(Siri)。
到底哪家的語音語義技術牛?
微軟小冰屬于聊天機器人,主打人機對話,每周例常解鎖一種玩法。但微軟小冰不能提供太多的實質性的服務,比如查詢機票、查詢車票、叫車,這些出門問問卻能做到。
如何客觀的評價技術的優劣?在這個信息交流特別頻繁的時代,被使用的人工智能算法大都來自學術界的公開成果,很難有一家公司擁有不屬于這個時代的技術。就從語音識別的角度上講,各個公司的識別率大都在90%以上(這個問題實際上要復雜些,比如方言識別率、生僻詞識別率等就有更多說法了)。當一家公司的技術只比另一家的好5%或者1%,用戶便很難感受到優劣,技術被應用的場景便成了重要的不同之處。
人工智能語音語義系統的基本實現方法
這些公司的語音語義技術都和“云”離不開關系。人工智能系統按照一套邏輯推理程序,在海量的數據中尋找其認為最正確的答案。這就意味著,被使用的人工智能系統其覆蓋的領域越廣,就越是對數據以及運算能力饑渴。小型離線設備,如手機、家用電腦都無法滿足這樣的需求。解決辦法是搭建一個擁有超強處理能力以及海量數據的“計算機集群”,并將其接入網絡,也就是我們所說的“云”。搭建了AI語音語義系統的云就是AI語音語義云,是這些AI公司的基礎設施。
搭建了智能云之后,還需要合適的語音輸入端口。這個端口可以來自公眾號、APP這類軟件,也可以來自音箱、可穿戴智能手表這類硬件。
如何正確看待目前市面上知名的語音語義系統?
雖然人工智能系統的概念很廣,具體到語音語義的概念還是很廣,因此這么多類似但不同的人工智能公司在不同方向上深耕。從用戶角度看,這些產品的不同之處還蠻大。
擅長搜索查詢消息的個人助理的有騰訊小鯨和出門問問
1、騰訊小鯨目前公開的信息較少,主要被嵌入TOS系統。與Ticwear類似,TOS系統被搭載在智能手表當中。不過,小鯨的功能與其他語音助手類似,可以設置鬧鐘、查詢信息,但不能像出門問問那樣直接叫車、訂咖啡。
有資料顯示,曾在GoogleBrain工作過的工程師創立了名為ScaledInference的公司,該公司的種子輪投資者就包括騰訊首席探索官David Wallerstein和騰訊本身。另外,也有消息稱,騰訊沒有停止其他視覺識別產品的研發。
這有點像微信當年的研發。
2、出門問問主要做2C(面向消費者)硬件產品,其智能手表Ticwatch是國內銷量較高的一款全交互智能手表。出門問問的人工智能語交互技術自成體系,包含語音識別、語音合成(TTS)、語義理解、垂直搜索、智能推送5個部分。其最大的特點是可以語音呼喚本地化生活服務,導航、看新聞、查天氣等都可以通過手機APP或者手表實現。
最近,出門問問推出了內測版的“魔法小問”,要把人工智能從查詢信息——如“今天有什么電影”——提升到提供完整服務,如直接幫助用戶訂電影票。這一點是其他智能系統做不到的。
擅長連續對話的“聊天機器人”有圖靈機器人和度秘
3、圖靈機器人主要做2B業務,其語音語義系統與小冰很相似,是連續對話機器人。圖靈可以被嵌入微信公眾號、APP、網站或者智能硬件,用戶可以讓它講笑話、做游戲,也可以用它查快遞、查新聞。最近圖靈機器人接受了奧飛動漫的投資,走智能兒童玩具的路。
4、度秘是百度推出的一款與小冰類似的連續對話機器人。另外,用戶可以在對話的同時,查詢“圖靈是誰”這樣的信息——這借助了百度的搜索引擎。最近,百度推出嵌入了”度秘“的實體機器人”小度“。
還有一類人工智能系統即不是助理也不是聊天機器人,而是被用于做智能語音交互解決方案,他們有訊飛語音云、云知聲的、思必馳
5、科大訊飛的“訊飛語音云”包括語音合成、語音識別和搜索、語音聽寫等技術,該云對方言、生僻字的語音識別率較高。訊飛語音輸入法就是基于此云開發的。科大訊飛“主要”做的是2B(面向企業用戶)服務,將自己的人工智能服務授權給其他企業。
另外,科大訊飛在最近幾年也開始發力2C(面向消費者)的產品,比如智能音箱、錄音寶、錄音筆等硬件。可以看到,科大訊飛的產品多是智能化的傳統產品,而非個人助理或聊天機器人。另外,科大訊飛偏向深耕“語音識別”,而非連續對話。
6、云知聲主要做2B業務,方向是智能家居和車載市場,這里便有了與出門問問類似的“軟硬結合”的概念。
與“可穿戴設備、手機及電腦上的智能語音語義系統”不同,智能家居語音系統的聲源可能很遠且被噪音包圍。也正因此,云知聲把推廣的重點放在了“聲源識別、噪聲抑制、回聲消除”以及指令的識別上,而非對用戶意圖的理解上(語義理解)。
值得一提的是,在京東與科大訊飛宣布“在一起”的時候,阿里與云知聲就達成了合作。不過,最近一段時間,未有相關消息。
7、思必馳與云知聲的方向挺相似,為企業客戶提供智能硬件語音交互方案,比如通過語音控制智能硬件的開關。思必馳在車載領域的合作多一些,比如車蘿卜。最近,思必馳又宣布完成了融資,要把“智能語音融進硬件”這條路走得更遠些。
8、小冰、小娜(Cortana)、Siri和Google Now
Cortana、Siri和Google Now,即是聊天機器人,也是個人助理。
微軟小冰與微軟小娜都基于必應搜索和深度神經網絡等技術,屬于2C產品。微軟小娜如今可以在iOS、Android、Window 10系統中使用,她更像一個秘書,可以打電話、發短信、發郵件以及查詢上一場曼聯的比分。但是微軟小娜在國內手機中的功能少很多,語音響應很慢。
微軟小冰作為一個對話系統,入駐于微信、微博等應用或者Windows 10系統中,她也可以查詢各種信息。與小娜不同,小冰不可以調用電話等應用,她更像一個虛擬人物,可以陪用戶聊天(連續對話)、玩游戲(基于圖像識別等人工智能技術)。
總的來看微軟小娜和小冰代表著微軟的兩個方向:小冰連續對話能力強,可移植行強,因此可以嵌入到微信、微博、美拍等應用中。小娜是Window 10配套的人工智能系統,能夠調用Windows 10中的各種應用和數據,被視為個人助理。
Siri大家熟悉,是一款可以調用應用的聊天機器人。如今的Siri除了定鬧鐘、發短信以外,還可搜索照片、播放音樂、提供建議。它或許不是最強大的,但更面向用戶。
Google Now在國內無法良好的使用,對中文的識別效果很差,中文版的能力也很弱。但是作為Google的產品,它天生便有了比其他人工智能產品更多的數據、更好的數據挖掘能力,這使得Google Now成為了一款“主動推送”能力很強的助理產品。
Google Now憑借與Chrome瀏覽器、Gmail、Google日歷等等Google應用以及Android系統的“近親關系”,使得其可以實現很多其他產品做不到的功能。比如,語音解鎖、任意界面“OK,Google”喚醒、主動推送你喜歡的和你需要的“即時帖”。有人曾稱贊:
“早上醒來,我驚奇的發現Google Now居然直接告訴了我去兼職工作的路上所要花費的時間。但是我沒有設置,而且那不是我真正工作的地方。”
可以看到,Google從用戶的地理與實踐信息中明白了他何時去何地兼職。但仍需強調,Google Now在國內的功能很少,而且實現一些即時功能,用戶必須把個人數據交給Google。
作為巨頭推出的產品,小娜、Siri和Google Now經常被媒體用來比較,但這種比較有些不太恰當。一方面,幾款產品中,只有Siri的易用性在國內不錯。另一方面,人工智能系統要明白用戶的用意,必須獲取數據——越多越好。因此,人工智能系統必須入駐更多的軟件或者平臺,獲取更高的權限。小娜雖然入駐了Android與iOS,但她仍然是微軟的產品,在Windows 10上才有更好的易用性。同樣,Google Now與Siri分別是Android陣營與iOS陣營的產品,前者擅長挖掘數據、主動推送,后者擅長聊天、被動建議。
可以看到,這些語音方面的人工智能公司有業務2B或2C的,選擇軟硬結合或者只做軟件解決方案,深耕智能家居或者智能穿戴。這些選擇,無分對錯或者好壞。但總體來看,人工智能仍然沒有認知能力,人與人工智能聊天又涉及到感情投入——這是一個超出自然科學范疇的問題。用戶對智能家居的認知度還不夠高,相關產品不夠成熟、定價不夠親民。這樣看,搞智能家居系統這樣的生態,似乎有點望得太遠。
因此,人工智能在普通消費者身上的落地是否可以先在“一個點”上引爆,比如人工智能系統作為助理,從僅可查閱機票信息提升到可以提供訂票服務。
評論