編者按:Kanda機(jī)器學(xué)習(xí)工程師Daniel Rothmann講解了如何借鑒人類聽(tīng)覺(jué)系統(tǒng),基于自編碼器學(xué)習(xí)音頻嵌入表示。
圖片來(lái)源:Jonathan Gross
AI技術(shù)的顯著突破都是通過(guò)建模人類系統(tǒng)達(dá)成的。盡管人工神經(jīng)網(wǎng)絡(luò)這一數(shù)學(xué)模型不過(guò)是從人類神經(jīng)元運(yùn)作的方式中獲得了最初的啟發(fā),它們?cè)诮鉀Q復(fù)雜而含混的真實(shí)世界問(wèn)題上的應(yīng)用有目共睹。此外,建模人腦神經(jīng)網(wǎng)絡(luò)的架構(gòu)深度為學(xué)習(xí)數(shù)據(jù)更多有意義表示開啟了廣泛的可能性。
在圖像識(shí)別和處理領(lǐng)域,借鑒復(fù)雜而更具有空間不變性的視覺(jué)系統(tǒng)細(xì)胞的CNN大大改進(jìn)了我們的技術(shù)。如果你有興趣在音頻頻譜上應(yīng)用圖像識(shí)別技術(shù),可以看下本系列的第二篇文章。
只要人類的感知能力超過(guò)機(jī)器,我們就能持續(xù)通過(guò)理解人類學(xué)習(xí)的原理而取得進(jìn)展。人類非常擅長(zhǎng)感知任務(wù),特別是機(jī)器聽(tīng)覺(jué)這一領(lǐng)域,當(dāng)前AI的表現(xiàn)與人類的差距明顯。有鑒于視覺(jué)處理依靠借鑒人類系統(tǒng)得到的收獲,我認(rèn)為用于機(jī)器聽(tīng)覺(jué)的神經(jīng)網(wǎng)絡(luò)能夠持續(xù)基于類似的過(guò)程得到改進(jìn)。
框架概覽
在這一系列文章中,我將詳細(xì)介紹奧胡斯大學(xué)和智能揚(yáng)聲器生產(chǎn)商Dynaudio A/S合作開發(fā)的實(shí)時(shí)音頻信號(hào)處理框架。該框架的靈感主要來(lái)自于認(rèn)知科學(xué)——試圖結(jié)合生物學(xué)、神經(jīng)科學(xué)、心理學(xué)、哲學(xué)以更好地理解我們的認(rèn)知能力的科學(xué)。
認(rèn)知聲音性質(zhì)
也許聲音最抽象的一方面就是人類是如何感知它的。盡管信號(hào)處理問(wèn)題的解答方案需要在低層操作強(qiáng)度、空間、時(shí)間性質(zhì)的參數(shù),但最終的目標(biāo)常常是認(rèn)知上的:以特定方式變換信號(hào),調(diào)整聲音的感知。
例如,如果有人想要通過(guò)編程的方式將說(shuō)話錄音的性別修改一下,那么在定義其低層屬性之前,有必要先以更有意義的形式描述這一問(wèn)題。說(shuō)話人的性別可以被視作一個(gè)由多種因素決定的認(rèn)知性質(zhì):嗓音的音高、音色,發(fā)音的不同,措辭的不同,以及通常人們?nèi)绾卫斫膺@些性質(zhì)和性別的關(guān)系。
這些參數(shù)可以通過(guò)強(qiáng)度、空間、時(shí)間性質(zhì)之類的低層特征描述,但通過(guò)更復(fù)雜的組合它們才形成了高層表示。這形成了音頻特性的層次結(jié)構(gòu),從中可以導(dǎo)出聲音的“含義”。表示人類嗓音的認(rèn)知性質(zhì)可以看成聲音的強(qiáng)度、空間、統(tǒng)計(jì)學(xué)性質(zhì)的時(shí)域發(fā)展的組合模式。
神經(jīng)網(wǎng)絡(luò)非常擅長(zhǎng)提取數(shù)據(jù)的抽象表示,因此很適合檢測(cè)聲音的認(rèn)知性質(zhì)這一任務(wù)。為了構(gòu)建達(dá)成這一目的的系統(tǒng),讓我們首先檢視下人類聽(tīng)覺(jué)器官是如何表示聲音的,供神經(jīng)網(wǎng)絡(luò)處理的聲音表示可以從中得到借鑒。
耳蝸表示
人類的聽(tīng)覺(jué)始于外耳的耳廓。耳廓起到空間預(yù)處理的作用,取決于傳入聲音和聽(tīng)話人的相對(duì)方向,耳廓修改了傳入的聲音。接著,聲音從耳廓的開口傳入耳道。耳道通過(guò)共鳴進(jìn)一步修改傳入聲音的空間特性,共鳴將放大1-6kHz中的頻率1。
聲波到達(dá)耳道盡頭后刺激附著在鼓膜上的聽(tīng)小骨(人體內(nèi)最小的骨頭)。這些聽(tīng)小骨將耳道的壓力傳輸?shù)絻?nèi)耳中充滿液體的耳蝸1。神經(jīng)網(wǎng)絡(luò)的聲音表示對(duì)借鑒耳蝸很有興趣,因?yàn)槎佌侨祟愗?fù)責(zé)將聽(tīng)覺(jué)振動(dòng)轉(zhuǎn)換為神經(jīng)活動(dòng)的器官。
耳蝸是由賴斯納氏膜和基底膜分隔的盤管。耳蝸中有大約3500個(gè)內(nèi)毛細(xì)胞1。隨著壓力傳入耳蝸,耳蝸中的兩道膜被下壓。基底膜底部窄而硬,頂部寬而松,這樣,特定頻率上的回應(yīng)自頂部至底部遞增。
簡(jiǎn)單地說(shuō),基底膜可以被看成一組連續(xù)的帶通濾波器,沿著基底膜區(qū)分出聲音的頻譜成分。
這就是人類轉(zhuǎn)換聲音壓力至神經(jīng)活動(dòng)的主要機(jī)制。因此,我們有理由假設(shè)聲音的空間表示對(duì)使用AI建模聲音感知會(huì)有幫助。由于基底膜的頻率響應(yīng)呈指數(shù)變化2,對(duì)數(shù)頻率表示可能是最高效的。我們可以使用gammatone濾波器組得到這樣的表示。這些濾波器常用于建模聽(tīng)覺(jué)系統(tǒng)的空間過(guò)濾,因?yàn)樗鼈兘苧evor函數(shù)。通過(guò)測(cè)量聽(tīng)覺(jué)神經(jīng)纖維對(duì)白噪聲刺激的響應(yīng),我們可以導(dǎo)出人類聽(tīng)覺(jué)過(guò)濾器的沖動(dòng)響應(yīng)函數(shù),該函數(shù)被稱為revor函數(shù)3。
由于耳蝸具備大約3500個(gè)內(nèi)毛細(xì)胞,而人類能夠檢測(cè)到約2-5毫秒的聲音空隙1,空間解析度為3500的gammatone濾波器組搭配2毫秒的窗口看上去是在機(jī)器上達(dá)到類似人類的空間表示的最佳參數(shù)。然而,在實(shí)際場(chǎng)合,我覺(jué)得可以假定更低的解析度仍能在大多數(shù)分析和處理任務(wù)中取得所需效果,而且從算力的角度來(lái)說(shuō)這樣更可行。
網(wǎng)上有一些用于聽(tīng)覺(jué)分析的軟件庫(kù)。值得注意的一個(gè)例子是Jason Heeris的Gammatone Filterbank Toolkit。它提供了可供調(diào)整的濾波器,以及使用gammatone濾波器對(duì)音頻信號(hào)進(jìn)行頻譜類分析的工具。
神經(jīng)編碼
在神經(jīng)活動(dòng)從耳蝸到聽(tīng)覺(jué)神經(jīng),沿著聽(tīng)覺(jué)通路傳遞的過(guò)程中,在達(dá)到聽(tīng)覺(jué)皮層之前,腦干核團(tuán)對(duì)其進(jìn)行了一系列處理。
這些處理形成了表示刺激和感知之間的接口的神經(jīng)編碼4。關(guān)于這些核團(tuán)的特定內(nèi)部工作機(jī)制的很多知識(shí)都是基于推測(cè)的,或者未知的,所以我將僅僅介紹核團(tuán)的高層功能。
單耳聽(tīng)覺(jué)通路的簡(jiǎn)化示意圖
人類每只耳朵都有一組核團(tuán),這些核團(tuán)相互連接。不過(guò),出于簡(jiǎn)單性,上圖只畫了單耳的流程。耳蝸核是來(lái)自聽(tīng)覺(jué)神經(jīng)的神經(jīng)信號(hào)的第一個(gè)編碼步驟。它包含性質(zhì)不同的各種神經(jīng)元,對(duì)聲音的特征進(jìn)行初步處理,其中部分傳向負(fù)責(zé)定位聲音的上橄欖體,剩余部分傳向和更高級(jí)特征相關(guān)的外側(cè)丘系和下丘1。
J. J. Eggermont在“Between sound and perception: reviewing the search for a neural code”(聲音和感知之間:神經(jīng)編碼研究回顧)一文中詳細(xì)描述了耳蝸核中的信息流:“腹側(cè)耳蝸核(VCN)提取并增強(qiáng)在聽(tīng)覺(jué)神經(jīng)纖維的激活模式中多路傳播的頻率和時(shí)間信息,并將結(jié)果分配到兩個(gè)通路:聲音定位通路和聲音識(shí)別通路。VCN的前部(AVCN)主要負(fù)責(zé)聲音定位,它的兩種多毛細(xì)胞為上橄欖復(fù)合體(SOC)提供輸入,SOC在每個(gè)頻率上分別映射雙耳時(shí)間差(ITD)和強(qiáng)度差(ILD)。”4
聲音識(shí)別通路傳輸?shù)男畔⒖梢员硎驹糁悘?fù)雜的頻譜。這一表示主要由腹側(cè)耳蝸核中特殊類型的單元(梳齒型神經(jīng)元)創(chuàng)建4。這些聽(tīng)覺(jué)編碼的細(xì)節(jié)難以明確,但它們啟發(fā)我們傳入頻率頻譜的“編碼”形式可能改善對(duì)低層聲音特征的理解,也讓神經(jīng)網(wǎng)絡(luò)處理聲象不那么昂貴。
頻譜聲音編碼
我們可以應(yīng)用無(wú)監(jiān)督自編碼器神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)學(xué)習(xí)復(fù)雜頻譜的常見(jiàn)性質(zhì)。類似詞嵌入,我們有可能找到頻率頻譜中的共性,這些共性表示聲音的選定特征(或者高度壓縮的含義)。
訓(xùn)練自編碼器編碼輸入為壓縮表示,該表示可以重建和輸入高度相似的表示。這意味著自編碼器的目標(biāo)輸出是輸入自身5。如果輸入可以在損失不大的情況下重建,那就說(shuō)明網(wǎng)絡(luò)學(xué)習(xí)到了所需編碼方式,這一方式編碼的內(nèi)部壓縮表示中包含足夠多的有意義信息。我們將這一內(nèi)部表示稱為嵌入。自編碼器的編碼部分可以和解碼器解耦,為其他應(yīng)用生成嵌入。
嵌入還有一個(gè)優(yōu)勢(shì),嵌入常常比原始數(shù)據(jù)的維度要低。例如,自編碼器可以將共有3500個(gè)值的頻率頻譜壓縮為長(zhǎng)度為500的向量。簡(jiǎn)單來(lái)說(shuō),這樣的向量的每個(gè)值可以描述頻譜的高層特征,例如元音、刺耳、諧波——這些只是舉例,因?yàn)樽跃幋a器推導(dǎo)出的統(tǒng)計(jì)學(xué)共同因素的含義常常難以用簡(jiǎn)單的語(yǔ)言標(biāo)記。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4789瀏覽量
101609 -
視覺(jué)系統(tǒng)
+關(guān)注
關(guān)注
3文章
337瀏覽量
30942 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1305瀏覽量
24688
原文標(biāo)題:機(jī)器聽(tīng)覺(jué):三、基于自編碼器學(xué)習(xí)聲音嵌入表示
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
基于變分自編碼器的異常小區(qū)檢測(cè)
是什么讓變分自編碼器成為如此成功的多媒體生成工具呢?

自編碼器介紹
稀疏自編碼器及TensorFlow實(shí)現(xiàn)詳解

基于稀疏自編碼器的屬性網(wǎng)絡(luò)嵌入算法SAANE

自編碼器基礎(chǔ)理論與實(shí)現(xiàn)方法、應(yīng)用綜述

一種多通道自編碼器深度學(xué)習(xí)的入侵檢測(cè)方法

基于變分自編碼器的網(wǎng)絡(luò)表示學(xué)習(xí)方法
基于自編碼特征的語(yǔ)音聲學(xué)綜合特征提取
結(jié)合深度學(xué)習(xí)的自編碼器端到端物理層優(yōu)化方案
自編碼器神經(jīng)網(wǎng)絡(luò)應(yīng)用及實(shí)驗(yàn)綜述
堆疊降噪自動(dòng)編碼器(SDAE)

自編碼器 AE(AutoEncoder)程序

評(píng)論