科大訊飛輪值總裁胡郁今天在“第三屆網(wǎng)易未來科技峰會”發(fā)表演講,介紹科大訊飛深度學(xué)習(xí)發(fā)展之路:從2010年開展DNN語音識別研究,2011年上線首個中文語音識別DNN系統(tǒng),2013年語種識別首創(chuàng)BN-ivec技術(shù),2016年將注意力模型神經(jīng)網(wǎng)絡(luò)應(yīng)用于認知智能。胡郁介紹了用卷積神經(jīng)網(wǎng)絡(luò)“看”語音,正確率大幅提高。胡郁認為再過四五年,語音識別系統(tǒng)就能達到人類水平。胡郁還介紹了訊飛超腦使用的一種基于注意力模型的表達體系,在空間上描述語言概念,計算詞語、句子在各個層面上的連接和計算距離,從而進行深層分析。
訊飛開放平臺微信后臺回復(fù)“0630人工智能”,下載完整PDF。
【胡郁】首先非常高興有機會在這里跟大家進行交流和討論,剛才汪建老師說,將來的世界是一個生命科技的時代,我非常同意這一點,將來人類的命運掌握在我們自己手里,我們可以改造自己,但是我們?nèi)祟愐蚕氚缪萆系鄣慕巧?/p>
大家都知道人類能夠在地球上統(tǒng)治整個世界,是因為我們有智能,現(xiàn)在人類不僅僅自己有智能,還希望能夠創(chuàng)造出新的智能。在當前世界,各種各樣的智能層出不窮,甚至有段時間“智能”一詞都被用濫了,到底智能應(yīng)該向什么方向發(fā)展,智能到底應(yīng)該給我們帶來什么?今天我們帶著這個疑問想跟大家探討一下。
大家都知道3月份時有個非常著名的AlphaGo大戰(zhàn)李世石,在此之前很多人都給出了預(yù)測,包括我自己在內(nèi),我當時的預(yù)測是機器人一定能夠戰(zhàn)勝人類。為什么呢?其實在研究界有句很有名的話,機器人在智能方面戰(zhàn)勝人類一定用它最擅長的方式,而不是用人類思維的方式。我們原來在討論時總想著下圍棋是一個非常高尚的運動,并不是每個人都能把圍棋下得很好,但其實機器根本不是這么想的,在下完這個比賽后,鳳凰衛(wèi)視《一虎一席談》請我去討論AlphaGo和李世石對弈的情況,記得在比賽前柯潔九段并不認為AlphaGo有多厲害。但在節(jié)目上連線柯潔九段時,他就比較謙虛了,說自己還需要好好準備。
為什么這么說呢?我們來看一下,AlphaGo為什么能夠戰(zhàn)勝人類,因為它用的確實不是人類所擅長的方法,而是機器所擅長的方法,AlphaGo能夠同時計算每步棋下幾十步甚至上百步的可能性,而且AlphaGo能夠記住3000萬種法的對弈,而這是我們?nèi)祟愃簧瞄L的。
反過來人工智能是不是能夠在所有方面超越人類呢?我覺得這也不一定,因為我們看到圍棋是一個完全信息透明情況下的公開博弈,就像以前的國際象棋,機器是占有很大優(yōu)勢的。
很多人會問,人工智能到底體現(xiàn)在什么方面呢?我們知道人類有農(nóng)業(yè)革命、工業(yè)革命,還有現(xiàn)在講的信息革命,但可能很多人不知道的是,人類在統(tǒng)治地球的過程中其實經(jīng)過了漫長的歷史發(fā)展。有一本書《人類簡史》,以色列一個年輕的歷史學(xué)家寫的,他在這本書里寫道,其實人類在地球上已經(jīng)出現(xiàn)200萬到300萬年了,但這些人類在全球各地,就是我們講的猿人——中國的山頂洞人、元謀人和藍田人——但經(jīng)過歷史學(xué)家和基因工作者的研究,大家知道,7萬年前,我們的祖先叫智人,從非洲走出來,走到世界各地,把其他猿人都給滅種了。現(xiàn)在不管是黑人白人還是棕色人種、黃種人,都是智人的后代。
在這個過程中,好像他們突然開竅了一樣,人的智能在經(jīng)過兩三百萬年的發(fā)展,突然邁上一大步,是什么讓他們走到這一點?歷史學(xué)家把這叫做“認知的革命”,因為他們發(fā)現(xiàn)這些人跟其他猿人最大的不同是在他們的語言得到了極大的豐富,大家知道先有對話才產(chǎn)生文字,產(chǎn)生文字后有幾個好處:
第一個好處,它可以更好地描述周圍的自然世界,比如河邊有只獅子,他們知道獅子長多大,身上有沒有病,處于什么樣的狀態(tài),更重要的是因為有了語言、有了語音,我們可以描述團隊和團隊之間的關(guān)系,如果沒有語言,看現(xiàn)在動物群種里面的黑猩猩,一個團隊最大不能超過50頭,超過50頭就無法管理。但智人因為有了語言,因為他們之間可以八卦,張家長李家短,他們可以組織上千人的團隊做一件事情。更重要的是,有了語言以后我們可以描述我們共同想像的內(nèi)容,一些虛構(gòu)的概念,“公司”、“夢想”都是從此得來。所以我們可以看到,現(xiàn)在歷史學(xué)家一個非常重要的認為,就是人類的認知革命將人類的智能帶到一個新的高度。
回顧一下我們可以看到,從剛才講的機器所擅長的運算智能,算棋譜時機器比我們強很多,但如果講到感知智能,就是我們看到世界、聽到周圍世界的能力,機器也在快速趕上來,但在認知方面,讓我們能夠有語言、有語音,能夠積累知識、能夠進行判斷這方面,機器其實比我們差得很遠。
這也是科大訊飛現(xiàn)在以語音和語言為入口的計算機的認知革命,我們所執(zhí)行的訊飛超腦計劃想要做的事情,就是把機器的感知智能和認知智能通過傳感器和算法感知世界,并且能夠?qū)ψ匀坏娜祟愂澜邕M行認知,作為我們?nèi)斯ぶ悄芤粋€非常重要的突破點。
用機器計算模擬人類的感知和認知
怎樣實現(xiàn)這種突破,其實我們有兩種不同的途徑,一種和我們的腦科學(xué)非常有關(guān),我們可以對大腦所有的神經(jīng)元構(gòu)造和它的工作機理進行分析,我們甚至可以根據(jù)大腦的整個工作機理重構(gòu)出來真正和大腦相同的機制,這是一條思路,但這條思路時間比較長,現(xiàn)在包括一些發(fā)達國家也在投入這方面的研究,另外一條思路就是用互聯(lián)網(wǎng)的思維,利用我們機器學(xué)習(xí)算法和大數(shù)據(jù)在盡可能快的過程中,就像AlphaGo一樣,它其實就是利用了這種方法,不完全能模仿大腦,但利用機器運算的方法能夠模擬我們的感知和認知。今天我講的主要是后面的具體方式。
從人腦中獲取智能最關(guān)鍵的一點是,就像我們都知道人類現(xiàn)在能飛上天,但我們并沒有把自己變成鳥,我們是知道了鳥在飛行時的空氣動力學(xué),我們研究大腦,其實并不是把大腦完全復(fù)制,而是希望找到大腦中的“智力動力學(xué)”,進一步優(yōu)化我們整個學(xué)習(xí)的算法。
從另一個角度,如果用互聯(lián)網(wǎng)思維來解決、改進我們的人工智能,要感謝三個方面的進展:一是人工神經(jīng)網(wǎng)絡(luò),這個人工神經(jīng)網(wǎng)絡(luò)就像我剛剛說的,只是學(xué)到了大腦一些簡單的機理,沒有大腦那么復(fù)雜,但已經(jīng)可以很好地工作了;另外拜互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)所賜,我們可以得到大量的數(shù)據(jù);更重要的是我們有千千萬萬的,就像網(wǎng)易、訊飛這些直達用戶的產(chǎn)品,這些產(chǎn)品把用戶的使用習(xí)慣源源不斷傳入后臺,我們可以利用網(wǎng)絡(luò)的效應(yīng)不斷地優(yōu)化它。正是因為有這三者的支撐,我們得到了非常好的結(jié)果。
用識別圖像的方法“看”語音,正確率大幅提高
真正人工智能的框架應(yīng)該是什么樣的呢?再給大家舉個例子,人類大腦皮層在工作過程中分為兩個層面:一個叫感知層面,就是我們講的視覺、聽覺和觸覺,還有一個層面是認知層面,當我們看到一只貓,聽到貓的叫聲,或者是摸貓的皮毛,人腦里有一個概念,這些概念形成了我們語言中的單詞和詞匯,就是“貓”這個概念,它們匯聚到我們講的語言和理解的大腦的認知皮層層面。所以在訊飛超腦里分兩個層面:一是感知智能,是對我們聽到的、看到的、碰到的東西進行識別,另一個是認知智能,就是把識別結(jié)果上升到我們認知的層面,形成一個概念空間的表示和推理。在過去5年中,科大訊飛相繼把深度學(xué)習(xí)網(wǎng)絡(luò)應(yīng)用在剛才講的感知和認知,包括視覺、包括聽覺,包括自然語言,包括翻譯的各個方面。
介紹一下我們最新的研究成果(工作人員播放一下第一句,再播放一下第二句)。
這是一段語音片斷,大家聽到第一個好像是“休息”,第二個好像是“休息室”。但當聽完完整片斷時你會知道,原來是“《西游記》之大鬧天宮”,人腦是怎么工作的呢?人腦能夠記下短時或中間的或長時的記憶,通過這種記憶,我們可以看到我們現(xiàn)在的神經(jīng)網(wǎng)絡(luò)其實是可以很好地模擬這個過程的,我們通過一種遞歸的方法,就可以讓神經(jīng)網(wǎng)絡(luò)能夠模擬大腦方面的感覺,這是現(xiàn)在最新型的遞歸神經(jīng)網(wǎng)絡(luò)用于語音識別的過程,這個過程非常復(fù)雜,我就不一一介紹了。
但光有遞歸還不夠,光能夠存儲記憶還不夠。現(xiàn)在最新的一個方式是用圖像的方法識別語音,這是當前最新的技術(shù),什么叫做圖像方法呢?大家可以看到,下面這個語音是我們平常在錄音里看到的波形,但當語音進入我們的耳朵時,耳朵里的纖毛會根據(jù)它的長度不同與語音中不同的頻率進行共振,如果把共振的頻率分析出來,我們可以得到下面的語譜圖,這張圖可能會受噪音、口音的干擾,但這個圖形里的信息很豐富。在MIT專門有科學(xué)家研究,如何根據(jù)這些圖形就能夠分辨出你說的這句話里用了哪些文字。
如果你是一個盲人,你的耳朵就會特別靈,因為它借用了我們在視神經(jīng)方面的一些神經(jīng)系統(tǒng)和細胞,這樣可以把一些能力借用過來。
可以說,現(xiàn)在我們的語音不僅可以聽到,而且可以看到。因為這樣的結(jié)果,在各種各樣的輸入法里,在語音搜索里,還有在各種各樣的語音交互式系統(tǒng)里,語音識別的錯誤率正在以每年30%的水平下降,我相信再過四到五年的時間,最后的語音識別系統(tǒng)就能跟人整個的感覺完全一樣了。
剛才說了,在感知方面,訊飛的語音識別技術(shù)不斷取得提升,但是在認知方面,它還要解決幾個非常核心的任務(wù)——訊飛超腦關(guān)于語言理解及深層、知識表述及推理,還有自主學(xué)習(xí),要實現(xiàn)這些必須要有兩個層面的東西:第一是要解決自然語言描述的問題,在此基礎(chǔ)上我們要解決語言理解,還有更深一層的知識表述及推理。下面我們一一看一下。
用“詞語卷積”在空間上表達詞語
剛才我們提到了大腦在大腦皮層中關(guān)于概念的表示,它是一張圖,不同的詞語它們之間概念是有空間的,我給大家舉個例子,比如“大家好”,傳統(tǒng)的表達,每個詞就代表了一個空間,我們把每個詞的出現(xiàn)看成“1”,不出現(xiàn)的地方看成“0”,這是傳統(tǒng)表現(xiàn)詞語的一種方法,詞語和詞語之間,要不就是距離相同,要不就是不同。
現(xiàn)在我們采用一種連續(xù)的空間來表現(xiàn)詞語,每個字、每個詞都可以用“詞語卷積”的方法,用一段連續(xù)的數(shù)字,相當于一個空間里的坐標系,這樣每兩個單詞之間的距離就可以把它計算出來。
把所有詞分一下類就可以看到這么一個結(jié)果,比如我們可以看到新浪、網(wǎng)易、騰訊,這些東西是連在一起的;我們可以看到呂布、張飛、關(guān)羽、諸葛亮,它們是比較接近的。實際上,在我們的大腦皮層中如果你來測量,比如我播放一個詞語,我的大腦里會出現(xiàn)放電,相關(guān)詞語在大腦皮層中存儲的位置也是非常接近的。
利用這種方法,我們就建立了一種表現(xiàn)詞語空間概念的表達體系,在這樣的表達體系之下,我們可以進一步地去分析詞語層面、句子層面和篇章層面,以及它們在各個層面上的連接和計算的距離。
有了這個以后,我們來看一些實際的作用,它們能做什么樣的事情呢?首先我們看一下語言的理解。首先來看翻譯,在翻譯方面,我們知道要進行語句的練習(xí),因為不同語言是不一樣的,這時候用到人腦中一個非常重要的概念——關(guān)注度模型,比如我們?nèi)嗽诳匆环鶊D像,海邊有一個燈塔,我們看的時候注意力是集中在燈塔上而不是其他方面。
基于注意力模型的神經(jīng)網(wǎng)絡(luò)
下邊這張圖比較有意思,下面這張圖是一個女司機在開車時觀察各種各樣的東西,她的注意力只能集中在有限的方面,相對男性要窄一些,所以人們常說“女司機殺手”可能就是這么來的。
如果我們來看一段文字,這兩天正好歐洲杯,我們的注意力其實也是集中在那些文字中比較有信息量的地方。這種關(guān)注度模型,其實它的方法是能夠把我們最關(guān)注的那些輸入量自動尋找出來,與我們最終的結(jié)果進行對應(yīng)。我們來看一下基于機器翻譯的實際例子:
大家都知道,不同的語言之間的機器翻譯,比如有很多謂語、主語、賓語,它們的位置是不同的,會進行倒裝,順序也會發(fā)生很多變化,原來用規(guī)則的方法來描述這些變化非常復(fù)雜,通過我們現(xiàn)在講的這個神經(jīng)網(wǎng)絡(luò),大家可以看到,輸入“我是誰”,“誰”和“我”,它們的位置是有差異的,利用attention這個神經(jīng)網(wǎng)絡(luò),它們可以自動找到對應(yīng)關(guān)系。采用全新注意力模型的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng),相比傳統(tǒng)系統(tǒng),提高會非常多。
再看下一個具體的例子,我們都知道最近科大訊飛在教育方面做了非常多的工作,我們希望能夠利用機器人幫助我們的老師進行卷面批改,比如我們寫了一個作文,這篇作文,我們希望機器人也能給它打出分數(shù)并給出它的評語。
大家看這個樣例,右上角的94分是這篇文章的得分,從這篇文章中可以看到它用到了排比,用到了一些語句的引用,我們?nèi)绾蝸碜觯寵C器也能看懂這些東西?機器的關(guān)注度如何自動落在這些關(guān)鍵的地方呢?其實很簡單,剛才我們講了,用連續(xù)空間把它表示出來,這些范文和作文之間的向量,利用關(guān)注度模型,會自動找到彼此之間比較對接的地方,它找到這些對接之后,就會進行深層分析。
通過這種方法,機器自動找到了這中間有相關(guān)的地方,應(yīng)該講,現(xiàn)在我們這方面的結(jié)果在中考和高考的作文評卷,不管是中文還是英文,都取得了很好的效果,比普通老師改得還要準確,當然這是大規(guī)模的結(jié)果。
最后我們來看一個閱讀理解題,大家看到了,這其實是一個答題系統(tǒng),我們看一段話,“月牙的影子在水中晃動”,原來有個題目叫“小鴨子看見了,以為是條魚,趕緊游過去”,這是閱讀理解,現(xiàn)在題目是我把“小鴨子”摳掉,讓機器看完這段話以后自動在上面填出來這地方應(yīng)該填什么,利用我們現(xiàn)在的系統(tǒng),我們會把篇章和問題進行attention的規(guī)劃,“小鴨子”也在其他地方也出現(xiàn)過,它可以計算出每個地方熱力度(關(guān)注度)的情況,后來我們發(fā)現(xiàn)“小鴨子”的關(guān)注度最高,這樣我們就可以把“小鴨子”填在這個地方,而且是填對的。
現(xiàn)在我們的機器在閱讀理解方面能達到6歲兒童的水平,大家不要小看6歲兒童,6歲兒童在常識的理解達到了一個水平,而在6歲以后主要是學(xué)各種各樣的知識,這就跟我們認知到的,2歲、3歲、4歲形成個人最重要的學(xué)習(xí)能力,這方面是最一致的。相信隨著6歲兒童常識的學(xué)習(xí)能力達到以后,我們再給他灌輸小學(xué)、初中、高中的知識以后,它最后就能考上大學(xué)。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4787瀏覽量
101401 -
語音交互
+關(guān)注
關(guān)注
3文章
289瀏覽量
28124 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5523瀏覽量
121746
發(fā)布評論請先 登錄
相關(guān)推薦
評論