麻省理工學(xué)院(MIT)的研究人員利用機(jī)器學(xué)習(xí)算法中的深度神經(jīng)網(wǎng)絡(luò),創(chuàng)造出了第一個(gè)可以在識(shí)別音樂(lè)類型等聽(tīng)覺(jué)任務(wù)上模擬人類表現(xiàn)的模型。
該模型由許多信息處理單元組成,通過(guò)輸入大量的數(shù)據(jù)來(lái)訓(xùn)練此模型,以完成特定的任務(wù)。研究人員利用該模型來(lái)闡明人腦是如何執(zhí)行同樣的任務(wù)的。
Josh McDermott說(shuō):“這些模型第一次給我們提供一個(gè)能夠執(zhí)行對(duì)人類有意義的感官任務(wù)的機(jī)器系統(tǒng),并且是在人類的水平等級(jí)上進(jìn)行這項(xiàng)工作。”他是麻省理工學(xué)院大腦和認(rèn)知科學(xué)系的神經(jīng)科學(xué)Frederick A.和Carole J. Middleton的助理教授,也是這項(xiàng)研究的資深作者。 “從歷史上看,這種感官的處理方式很難理解,部分原因是我們沒(méi)有一個(gè)非常明確的理論基礎(chǔ),也沒(méi)有一個(gè)很好的方法來(lái)對(duì)可能正在發(fā)生的事情進(jìn)行開(kāi)發(fā)建模。”
這項(xiàng)研究發(fā)表在4月19日的《Neuron》雜志上,這項(xiàng)研究也證明了人類的聽(tīng)覺(jué)皮層排列在在一個(gè)等級(jí)分明的組織中,就像視覺(jué)皮質(zhì)一樣。在這種類型的排列中,感官信息經(jīng)過(guò)連續(xù)的處理,基本信息處理得更早,而像單詞含義一樣的更高級(jí)特征在后期處理。
麻省理工學(xué)院研究生Alexander Kell和斯坦福大學(xué)助理教授Daniel Yamins是論文的主要作者。其他作者是麻省理工學(xué)院前訪問(wèn)學(xué)生Erica Shook和前麻省理工學(xué)院博士后Sam Norman Haignere。
大腦建模:模型學(xué)會(huì)了像人類一樣準(zhǔn)確地執(zhí)行任務(wù)
當(dāng)神經(jīng)網(wǎng)絡(luò)在20世紀(jì)80年代首次出現(xiàn)時(shí),神經(jīng)科學(xué)家們希望這種系統(tǒng)可以用來(lái)模擬人腦。然而,來(lái)自那個(gè)時(shí)代的計(jì)算機(jī)不夠強(qiáng)大,無(wú)法建立足夠大的模型來(lái)進(jìn)行一些實(shí)際任務(wù),如物體識(shí)別或語(yǔ)音識(shí)別等。
在過(guò)去的五年里,隨著計(jì)算能力和神經(jīng)網(wǎng)絡(luò)技術(shù)的進(jìn)步,使用神經(jīng)網(wǎng)絡(luò)來(lái)執(zhí)行這些困難的現(xiàn)實(shí)任務(wù)已經(jīng)成為一種可能,而且它們已經(jīng)成為許多工程應(yīng)用程序中的標(biāo)準(zhǔn)方法。與此同時(shí),一些神經(jīng)科學(xué)家對(duì)這些系統(tǒng)是否能夠來(lái)模擬人腦進(jìn)行了重新審視。
Kell說(shuō):“這對(duì)于神經(jīng)科學(xué)來(lái)說(shuō)是一個(gè)激動(dòng)人心的機(jī)會(huì),因?yàn)槲覀兛梢詣?chuàng)造出可以代替人類來(lái)執(zhí)行某些工作的系統(tǒng),然后我們可以對(duì)這些模型進(jìn)行測(cè)試并將它們與大腦進(jìn)行比較。”
麻省理工學(xué)院的研究人員訓(xùn)練他們的神經(jīng)網(wǎng)絡(luò)來(lái)執(zhí)行兩個(gè)聽(tīng)覺(jué)任務(wù),一個(gè)涉及語(yǔ)音,另一個(gè)涉及音樂(lè)。在語(yǔ)音任務(wù)中,研究人員給模型提供了成千上萬(wàn)的兩秒鐘長(zhǎng)的錄音。任務(wù)是識(shí)別音頻中單詞。在音樂(lè)任務(wù)中,該模型被要求識(shí)別那些兩秒鐘音樂(lè)片段的類型。每個(gè)片段還包括背景噪音,使任務(wù)更加現(xiàn)實(shí)也更加困難。
在完成了成千上萬(wàn)的數(shù)據(jù)訓(xùn)練之后,模型學(xué)會(huì)了像人類一樣準(zhǔn)確地執(zhí)行任務(wù)。
Kell說(shuō):“這個(gè)想法是隨著時(shí)間的推移,模型在任務(wù)中變得越來(lái)越好。希望它正在學(xué)習(xí)一些一般的東西,所以如果你給模型輸入一種它以前從未聽(tīng)過(guò)的新聲音,它會(huì)做得很好,這已經(jīng)在實(shí)驗(yàn)中得到了證明。”
該模型還傾向于在人類最容易犯錯(cuò)誤的片段上犯錯(cuò)誤。
組成神經(jīng)網(wǎng)絡(luò)的處理單元可以以多種方式組合在一起,形成可以影響模型的性能的不同模型結(jié)構(gòu)。
麻省理工研究團(tuán)隊(duì)發(fā)現(xiàn),這兩項(xiàng)任務(wù)的最佳模型是將處理分為兩組階段。第一階段是在任務(wù)之間共享的,但在此之后,它分成兩個(gè)分支,用于進(jìn)一步的分析:一個(gè)用于語(yǔ)音處理任務(wù),另一個(gè)用于音樂(lè)處理任務(wù)。
分級(jí)的證據(jù):初級(jí)聽(tīng)覺(jué)皮層和其他有區(qū)別
然后,研究人員用他們的模型對(duì)一個(gè)長(zhǎng)期存在的關(guān)于聽(tīng)覺(jué)皮層結(jié)構(gòu)的問(wèn)題進(jìn)行了探索:它是否分級(jí)。
在分級(jí)系統(tǒng)中,一系列的大腦區(qū)域在流經(jīng)系統(tǒng)的感官信息上執(zhí)行不同類型的計(jì)算。有證據(jù)表明,視覺(jué)皮層有相同類型的組織結(jié)構(gòu)。前期的區(qū)域,被稱為初級(jí)視覺(jué)皮質(zhì),對(duì)簡(jiǎn)單的特征如顏色或方向做出反應(yīng)。后端的區(qū)域則執(zhí)行更復(fù)雜的任務(wù),如對(duì)象識(shí)別。
然而,很難測(cè)試這種類型的組織是否也存在于聽(tīng)覺(jué)皮層中,部分原因是沒(méi)有一個(gè)好的模型來(lái)對(duì)人類的聽(tīng)覺(jué)行為進(jìn)行復(fù)制。
McDermott說(shuō):“我們認(rèn)為,如果我們可以構(gòu)建一個(gè)和人類執(zhí)行同樣任務(wù)的模型,我們就能夠比較將模型不同階段的不同部分與大腦進(jìn)行比價(jià),這樣可以得到一些證據(jù)來(lái)證明大腦中的一些部分是否是分級(jí)的組織。”
研究人員發(fā)現(xiàn),在他們的模型中聲音的基本特征,如頻率在早期階段更容易被提取。當(dāng)信息在神經(jīng)網(wǎng)上不斷向后傳輸?shù)倪^(guò)程中,一些基本特征越來(lái)越難提取,而更高層次的信息,例如詞的含義變得更容易提取。
為了驗(yàn)證模型階段是否可以復(fù)制人類聽(tīng)覺(jué)皮層處理聲音信息的方式,研究人員使用了功能性磁共振成像(fMRI)來(lái)測(cè)量大腦處理真實(shí)聲音時(shí)聽(tīng)覺(jué)皮層的不同區(qū)域。然后,他們比較了在處理相同的聲音時(shí),大腦和模型的區(qū)別。
他們發(fā)現(xiàn),模型的中間階段與大腦初級(jí)聽(tīng)覺(jué)皮層的活動(dòng)相似性最高,隨后的網(wǎng)絡(luò)與初級(jí)皮質(zhì)以外的活動(dòng)相呼應(yīng)。研究人員說(shuō),這為聽(tīng)覺(jué)皮層以一種類似于視覺(jué)皮層的分級(jí)方式排列提供了證據(jù)。
McDermott說(shuō):“我們非常清楚地看到,初級(jí)聽(tīng)覺(jué)皮層和其他所有東西之間的區(qū)別。”
作者現(xiàn)在打算開(kāi)發(fā)一種可以執(zhí)行其他類型的聽(tīng)覺(jué)任務(wù)的模型,例如特定聲音的發(fā)聲位置定位,來(lái)探討這些任務(wù)是否可以通過(guò)本文中發(fā)現(xiàn)的思路來(lái)完成,或者說(shuō)其他的一些任務(wù)通過(guò)對(duì)人腦進(jìn)行研究,以獲得新的思路。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4813瀏覽量
103418 -
語(yǔ)音識(shí)別
+關(guān)注
關(guān)注
39文章
1779瀏覽量
114163 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8500瀏覽量
134496
原文標(biāo)題:MIT開(kāi)發(fā)聽(tīng)覺(jué)神經(jīng)網(wǎng)絡(luò)模型,學(xué)會(huì)從2秒片段識(shí)別音樂(lè)類型
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
基于深度神經(jīng)網(wǎng)絡(luò)的嬰兒哭聲識(shí)別算法
人臉識(shí)別、語(yǔ)音翻譯、無(wú)人駕駛...這些高科技都離不開(kāi)深度神經(jīng)網(wǎng)絡(luò)了!
深度學(xué)習(xí)與數(shù)據(jù)挖掘的關(guān)系
基于賽靈思FPGA的卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)設(shè)計(jì)
卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用
什么是深度學(xué)習(xí)?使用FPGA進(jìn)行深度學(xué)習(xí)的好處?
卷積神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介:什么是機(jī)器學(xué)習(xí)?
淺析三種主流深度神經(jīng)網(wǎng)絡(luò)

評(píng)論