在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何借鑒人類聽(tīng)覺(jué)系統(tǒng),基于自編碼器學(xué)習(xí)音頻嵌入表示

zhKF_jqr_AI ? 來(lái)源:lq ? 2018-12-08 09:11 ? 次閱讀

編者按:Kanda機(jī)器學(xué)習(xí)工程師Daniel Rothmann講解了如何借鑒人類聽(tīng)覺(jué)系統(tǒng),基于自編碼器學(xué)習(xí)音頻嵌入表示。

圖片來(lái)源:Jonathan Gross

AI技術(shù)的顯著突破都是通過(guò)建模人類系統(tǒng)達(dá)成的。盡管人工神經(jīng)網(wǎng)絡(luò)這一數(shù)學(xué)模型不過(guò)是從人類神經(jīng)元運(yùn)作的方式中獲得了最初的啟發(fā),它們?cè)诮鉀Q復(fù)雜而含混的真實(shí)世界問(wèn)題上的應(yīng)用有目共睹。此外,建模人腦神經(jīng)網(wǎng)絡(luò)的架構(gòu)深度為學(xué)習(xí)數(shù)據(jù)更多有意義表示開啟了廣泛的可能性。

在圖像識(shí)別和處理領(lǐng)域,借鑒復(fù)雜而更具有空間不變性的視覺(jué)系統(tǒng)細(xì)胞的CNN大大改進(jìn)了我們的技術(shù)。如果你有興趣在音頻頻譜上應(yīng)用圖像識(shí)別技術(shù),可以看下本系列的第二篇文章。

只要人類的感知能力超過(guò)機(jī)器,我們就能持續(xù)通過(guò)理解人類學(xué)習(xí)的原理而取得進(jìn)展。人類非常擅長(zhǎng)感知任務(wù),特別是機(jī)器聽(tīng)覺(jué)這一領(lǐng)域,當(dāng)前AI的表現(xiàn)與人類的差距明顯。有鑒于視覺(jué)處理依靠借鑒人類系統(tǒng)得到的收獲,我認(rèn)為用于機(jī)器聽(tīng)覺(jué)的神經(jīng)網(wǎng)絡(luò)能夠持續(xù)基于類似的過(guò)程得到改進(jìn)。

框架概覽

在這一系列文章中,我將詳細(xì)介紹奧胡斯大學(xué)和智能揚(yáng)聲器生產(chǎn)商Dynaudio A/S合作開發(fā)的實(shí)時(shí)音頻信號(hào)處理框架。該框架的靈感主要來(lái)自于認(rèn)知科學(xué)——試圖結(jié)合生物學(xué)、神經(jīng)科學(xué)、心理學(xué)、哲學(xué)以更好地理解我們的認(rèn)知能力的科學(xué)。

認(rèn)知聲音性質(zhì)

也許聲音最抽象的一方面就是人類是如何感知它的。盡管信號(hào)處理問(wèn)題的解答方案需要在低層操作強(qiáng)度、空間、時(shí)間性質(zhì)的參數(shù),但最終的目標(biāo)常常是認(rèn)知上的:以特定方式變換信號(hào),調(diào)整聲音的感知。

例如,如果有人想要通過(guò)編程的方式將說(shuō)話錄音的性別修改一下,那么在定義其低層屬性之前,有必要先以更有意義的形式描述這一問(wèn)題。說(shuō)話人的性別可以被視作一個(gè)由多種因素決定的認(rèn)知性質(zhì):嗓音的音高、音色,發(fā)音的不同,措辭的不同,以及通常人們?nèi)绾卫斫膺@些性質(zhì)和性別的關(guān)系。

這些參數(shù)可以通過(guò)強(qiáng)度、空間、時(shí)間性質(zhì)之類的低層特征描述,但通過(guò)更復(fù)雜的組合它們才形成了高層表示。這形成了音頻特性的層次結(jié)構(gòu),從中可以導(dǎo)出聲音的“含義”。表示人類嗓音的認(rèn)知性質(zhì)可以看成聲音的強(qiáng)度、空間、統(tǒng)計(jì)學(xué)性質(zhì)的時(shí)域發(fā)展的組合模式。

神經(jīng)網(wǎng)絡(luò)非常擅長(zhǎng)提取數(shù)據(jù)的抽象表示,因此很適合檢測(cè)聲音的認(rèn)知性質(zhì)這一任務(wù)。為了構(gòu)建達(dá)成這一目的的系統(tǒng),讓我們首先檢視下人類聽(tīng)覺(jué)器官是如何表示聲音的,供神經(jīng)網(wǎng)絡(luò)處理的聲音表示可以從中得到借鑒。

耳蝸表示

人類的聽(tīng)覺(jué)始于外耳的耳廓。耳廓起到空間預(yù)處理的作用,取決于傳入聲音和聽(tīng)話人的相對(duì)方向,耳廓修改了傳入的聲音。接著,聲音從耳廓的開口傳入耳道。耳道通過(guò)共鳴進(jìn)一步修改傳入聲音的空間特性,共鳴將放大1-6kHz中的頻率1。

聲波到達(dá)耳道盡頭后刺激附著在鼓膜上的聽(tīng)小骨(人體內(nèi)最小的骨頭)。這些聽(tīng)小骨將耳道的壓力傳輸?shù)絻?nèi)耳中充滿液體的耳蝸1。神經(jīng)網(wǎng)絡(luò)的聲音表示對(duì)借鑒耳蝸很有興趣,因?yàn)槎佌侨祟愗?fù)責(zé)將聽(tīng)覺(jué)振動(dòng)轉(zhuǎn)換為神經(jīng)活動(dòng)的器官。

耳蝸是由賴斯納氏膜和基底膜分隔的盤管。耳蝸中有大約3500個(gè)內(nèi)毛細(xì)胞1。隨著壓力傳入耳蝸,耳蝸中的兩道膜被下壓。基底膜底部窄而硬,頂部寬而松,這樣,特定頻率上的回應(yīng)自頂部至底部遞增。

簡(jiǎn)單地說(shuō),基底膜可以被看成一組連續(xù)的帶通濾波器,沿著基底膜區(qū)分出聲音的頻譜成分。

這就是人類轉(zhuǎn)換聲音壓力至神經(jīng)活動(dòng)的主要機(jī)制。因此,我們有理由假設(shè)聲音的空間表示對(duì)使用AI建模聲音感知會(huì)有幫助。由于基底膜的頻率響應(yīng)呈指數(shù)變化2,對(duì)數(shù)頻率表示可能是最高效的。我們可以使用gammatone濾波器組得到這樣的表示。這些濾波器常用于建模聽(tīng)覺(jué)系統(tǒng)的空間過(guò)濾,因?yàn)樗鼈兘苧evor函數(shù)。通過(guò)測(cè)量聽(tīng)覺(jué)神經(jīng)纖維對(duì)白噪聲刺激的響應(yīng),我們可以導(dǎo)出人類聽(tīng)覺(jué)過(guò)濾器的沖動(dòng)響應(yīng)函數(shù),該函數(shù)被稱為revor函數(shù)3。

由于耳蝸具備大約3500個(gè)內(nèi)毛細(xì)胞,而人類能夠檢測(cè)到約2-5毫秒的聲音空隙1,空間解析度為3500的gammatone濾波器組搭配2毫秒的窗口看上去是在機(jī)器上達(dá)到類似人類的空間表示的最佳參數(shù)。然而,在實(shí)際場(chǎng)合,我覺(jué)得可以假定更低的解析度仍能在大多數(shù)分析和處理任務(wù)中取得所需效果,而且從算力的角度來(lái)說(shuō)這樣更可行。

網(wǎng)上有一些用于聽(tīng)覺(jué)分析的軟件庫(kù)。值得注意的一個(gè)例子是Jason Heeris的Gammatone Filterbank Toolkit。它提供了可供調(diào)整的濾波器,以及使用gammatone濾波器對(duì)音頻信號(hào)進(jìn)行頻譜類分析的工具。

神經(jīng)編碼

在神經(jīng)活動(dòng)從耳蝸到聽(tīng)覺(jué)神經(jīng),沿著聽(tīng)覺(jué)通路傳遞的過(guò)程中,在達(dá)到聽(tīng)覺(jué)皮層之前,腦干核團(tuán)對(duì)其進(jìn)行了一系列處理。

這些處理形成了表示刺激和感知之間的接口的神經(jīng)編碼4。關(guān)于這些核團(tuán)的特定內(nèi)部工作機(jī)制的很多知識(shí)都是基于推測(cè)的,或者未知的,所以我將僅僅介紹核團(tuán)的高層功能。

單耳聽(tīng)覺(jué)通路的簡(jiǎn)化示意圖

人類每只耳朵都有一組核團(tuán),這些核團(tuán)相互連接。不過(guò),出于簡(jiǎn)單性,上圖只畫了單耳的流程。耳蝸核是來(lái)自聽(tīng)覺(jué)神經(jīng)的神經(jīng)信號(hào)的第一個(gè)編碼步驟。它包含性質(zhì)不同的各種神經(jīng)元,對(duì)聲音的特征進(jìn)行初步處理,其中部分傳向負(fù)責(zé)定位聲音的上橄欖體,剩余部分傳向和更高級(jí)特征相關(guān)的外側(cè)丘系和下丘1。

J. J. Eggermont在“Between sound and perception: reviewing the search for a neural code”(聲音和感知之間:神經(jīng)編碼研究回顧)一文中詳細(xì)描述了耳蝸核中的信息流:“腹側(cè)耳蝸核(VCN)提取并增強(qiáng)在聽(tīng)覺(jué)神經(jīng)纖維的激活模式中多路傳播的頻率和時(shí)間信息,并將結(jié)果分配到兩個(gè)通路:聲音定位通路和聲音識(shí)別通路。VCN的前部(AVCN)主要負(fù)責(zé)聲音定位,它的兩種多毛細(xì)胞為上橄欖復(fù)合體(SOC)提供輸入,SOC在每個(gè)頻率上分別映射雙耳時(shí)間差(ITD)和強(qiáng)度差(ILD)。”4

聲音識(shí)別通路傳輸?shù)男畔⒖梢员硎驹糁悘?fù)雜的頻譜。這一表示主要由腹側(cè)耳蝸核中特殊類型的單元(梳齒型神經(jīng)元)創(chuàng)建4。這些聽(tīng)覺(jué)編碼的細(xì)節(jié)難以明確,但它們啟發(fā)我們傳入頻率頻譜的“編碼”形式可能改善對(duì)低層聲音特征的理解,也讓神經(jīng)網(wǎng)絡(luò)處理聲象不那么昂貴。

頻譜聲音編碼

我們可以應(yīng)用無(wú)監(jiān)督自編碼器神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)學(xué)習(xí)復(fù)雜頻譜的常見(jiàn)性質(zhì)。類似詞嵌入,我們有可能找到頻率頻譜中的共性,這些共性表示聲音的選定特征(或者高度壓縮的含義)。

訓(xùn)練自編碼器編碼輸入為壓縮表示,該表示可以重建和輸入高度相似的表示。這意味著自編碼器的目標(biāo)輸出是輸入自身5。如果輸入可以在損失不大的情況下重建,那就說(shuō)明網(wǎng)絡(luò)學(xué)習(xí)到了所需編碼方式,這一方式編碼的內(nèi)部壓縮表示中包含足夠多的有意義信息。我們將這一內(nèi)部表示稱為嵌入。自編碼器的編碼部分可以和解碼器解耦,為其他應(yīng)用生成嵌入。

嵌入還有一個(gè)優(yōu)勢(shì),嵌入常常比原始數(shù)據(jù)的維度要低。例如,自編碼器可以將共有3500個(gè)值的頻率頻譜壓縮為長(zhǎng)度為500的向量。簡(jiǎn)單來(lái)說(shuō),這樣的向量的每個(gè)值可以描述頻譜的高層特征,例如元音、刺耳、諧波——這些只是舉例,因?yàn)樽跃幋a器推導(dǎo)出的統(tǒng)計(jì)學(xué)共同因素的含義常常難以用簡(jiǎn)單的語(yǔ)言標(biāo)記。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:機(jī)器聽(tīng)覺(jué):三、基于自編碼器學(xué)習(xí)聲音嵌入表示

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于變分自編碼器的異常小區(qū)檢測(cè)

    ;另一個(gè)是正則化損失(regularization loss),它有助于學(xué)習(xí)具有良好結(jié)構(gòu)的潛在空間,并可以降低在訓(xùn)練數(shù)據(jù)上的過(guò)擬合。  2.3基于變分自編碼器的異常小區(qū)檢測(cè)  基于變分自編碼器的異常小區(qū)
    發(fā)表于 12-03 15:06

    是什么讓變分自編碼器成為如此成功的多媒體生成工具呢?

    標(biāo)準(zhǔn)自編碼器學(xué)習(xí)生成緊湊的數(shù)據(jù)表達(dá)并重建輸入數(shù)據(jù),然而除了像去噪自編碼器等為數(shù)不多的應(yīng)用外,它的應(yīng)用卻極其有限。其根本原因在于自編碼器將輸入轉(zhuǎn)換為隱含空間中的表達(dá)并不是連續(xù)的,使得其
    的頭像 發(fā)表于 04-19 16:48 ?1.3w次閱讀
    是什么讓變分<b class='flag-5'>自編碼器</b>成為如此成功的多媒體生成工具呢?

    自編碼器介紹

    自編碼器若僅要求X≈Y,且對(duì)隱藏神經(jīng)元進(jìn)行稀疏約束,從而使大部分節(jié)點(diǎn)值為0或接近0的無(wú)效值,便得到稀疏自動(dòng)編碼算法。一般情況下,隱含層的神經(jīng)元數(shù)應(yīng)少于輸入X的個(gè)數(shù),因?yàn)榇藭r(shí)才能保證這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的價(jià)值。
    發(fā)表于 06-11 15:07 ?4990次閱讀

    稀疏自編碼器及TensorFlow實(shí)現(xiàn)詳解

     稀疏自編碼器(又稱稀疏自動(dòng)編碼機(jī))中,重構(gòu)誤差中添加了一個(gè)稀疏懲罰,用來(lái)限定任何時(shí)刻的隱藏層中并不是所有單元都被激活。如果 m 是輸入模式的總數(shù),那么可以定義一個(gè)參數(shù) ρ_hat,用來(lái)表示每個(gè)隱藏層單元的行為(平均激活多少次)
    發(fā)表于 06-11 16:45 ?3928次閱讀
    稀疏<b class='flag-5'>自編碼器</b>及TensorFlow實(shí)現(xiàn)詳解

    基于稀疏自編碼器的屬性網(wǎng)絡(luò)嵌入算法SAANE

    在多數(shù)屬性網(wǎng)絡(luò)嵌入算法中,拓?fù)浣Y(jié)構(gòu)的設(shè)計(jì)只考慮節(jié)點(diǎn)間直接鏈接,而未考慮節(jié)點(diǎn)間間接鏈接及不同節(jié)點(diǎn)的共同鏈接比,導(dǎo)致不能充分提取網(wǎng)絡(luò)真實(shí)拓?fù)涮卣鳌a槍?duì)該問(wèn)題,提出一種基于稀疏自編碼器的屬性網(wǎng)絡(luò)嵌入算法
    發(fā)表于 03-27 10:26 ?7次下載
    基于稀疏<b class='flag-5'>自編碼器</b>的屬性網(wǎng)絡(luò)<b class='flag-5'>嵌入</b>算法SAANE

    自編碼器基礎(chǔ)理論與實(shí)現(xiàn)方法、應(yīng)用綜述

    自編碼器是深度學(xué)習(xí)中的一種非常重要的無(wú)監(jiān)督學(xué)習(xí)方法,能夠從大量無(wú)標(biāo)簽的數(shù)據(jù)中自動(dòng)學(xué)習(xí),得到蘊(yùn)含在數(shù)據(jù)中的有效特征。因此,自編碼方法近年來(lái)受到
    發(fā)表于 03-31 11:24 ?9次下載
    <b class='flag-5'>自編碼器</b>基礎(chǔ)理論與實(shí)現(xiàn)方法、應(yīng)用綜述

    一種多通道自編碼器深度學(xué)習(xí)的入侵檢測(cè)方法

    自編碼器,其重構(gòu)的兩個(gè)新特征向量與原始樣本共同組成多通道特征向量表示;然后利用一維卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)多通道特征向量表示進(jìn)行處理,學(xué)習(xí)通道之間可能的依賴關(guān)系,用于更好地區(qū)分正常流
    發(fā)表于 04-07 15:23 ?7次下載
    一種多通道<b class='flag-5'>自編碼器</b>深度<b class='flag-5'>學(xué)習(xí)</b>的入侵檢測(cè)方法

    基于變分自編碼器的網(wǎng)絡(luò)表示學(xué)習(xí)方法

    ,將這些信息融入到網(wǎng)絡(luò)表示學(xué)習(xí)過(guò)程中,有助于提升下游任務(wù)的性能。但是針對(duì)不同的應(yīng)用場(chǎng)景,結(jié)構(gòu)和屬性信息并不總是線性相關(guān),而且它們都是高度非線性的數(shù)據(jù)。提岀一種基于變分自編碼器的網(wǎng)絡(luò)表示
    發(fā)表于 05-12 14:50 ?27次下載

    基于自編碼特征的語(yǔ)音聲學(xué)綜合特征提取

    信噪比衡量)很低。在不影響可懂度的情況下,為了提高語(yǔ)音増強(qiáng)后語(yǔ)音質(zhì)量,提出了一種基于自編碼特征的綜合特征。首先利用自編碼器提取自編碼特征,然后利用 Group Lasso算法驗(yàn)證自編碼
    發(fā)表于 05-19 16:33 ?27次下載

    結(jié)合深度學(xué)習(xí)自編碼器端到端物理層優(yōu)化方案

    5G規(guī)模化商用可提供髙速低延時(shí)的通信服務(wù),但由于逐塊設(shè)計(jì)的通信模型可解釋性程度較低,增加了其物理層優(yōu)化的復(fù)雜度。針對(duì)該問(wèn)題,利用深度學(xué)習(xí)在結(jié)構(gòu)化信息表示和數(shù)據(jù)提取上的優(yōu)勢(shì),在其基礎(chǔ)上提出一種自編碼器
    發(fā)表于 05-24 15:18 ?7次下載

    自編碼器神經(jīng)網(wǎng)絡(luò)應(yīng)用及實(shí)驗(yàn)綜述

    自編碼器是深度學(xué)習(xí)中的一種非常重要的無(wú)監(jiān)督學(xué)習(xí)方法,能夠從大量無(wú)標(biāo)簽的數(shù)據(jù)中自動(dòng)學(xué)習(xí),得到蘊(yùn)含在數(shù)據(jù)中的有效特征。因此,自編碼方法近年來(lái)受到
    發(fā)表于 06-07 16:38 ?7次下載

    堆疊降噪自動(dòng)編碼器(SDAE)

    自動(dòng)編碼器(Auto-Encoder,AE) 自編碼器(autoencoder)是神經(jīng)網(wǎng)絡(luò)的一種,經(jīng)過(guò)訓(xùn)練后能嘗試將輸入復(fù)制到輸出。自編碼器內(nèi)部有一個(gè)隱藏層 h,可以產(chǎn)生編碼(code
    的頭像 發(fā)表于 01-11 17:04 ?6947次閱讀
    堆疊降噪自動(dòng)<b class='flag-5'>編碼器</b>(SDAE)

    自編碼器 AE(AutoEncoder)程序

    原文鏈接 1.程序講解 (1)香草編碼器 在這種自編碼器的最簡(jiǎn)單結(jié)構(gòu)中,只有三個(gè)網(wǎng)絡(luò)層,即只有一個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)。它的輸入和輸出是相同的,可通過(guò)使用Adam優(yōu)化和均方誤差損失函數(shù),來(lái)學(xué)習(xí)
    的頭像 發(fā)表于 01-11 17:29 ?1476次閱讀
    <b class='flag-5'>自編碼器</b> AE(AutoEncoder)程序

    編碼器音頻功能

    數(shù)字視頻監(jiān)控系統(tǒng)需要音頻功能,音頻功能包括音頻輸入和輸出功能,輸入功能是對(duì)前端的音頻輸入進(jìn)行與視頻同步的錄音,輸出功能指控制中心可以對(duì)前端現(xiàn)
    的頭像 發(fā)表于 08-25 11:11 ?902次閱讀

    自編碼器的原理和類型

    自編碼器(Autoencoder, AE)是一種無(wú)監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,它通過(guò)編碼器和解碼的組合,實(shí)現(xiàn)了對(duì)輸入數(shù)據(jù)的壓縮和重構(gòu)。自編碼器
    的頭像 發(fā)表于 07-09 11:25 ?1715次閱讀
    主站蜘蛛池模板: 国产人人澡 | 天天干天天操天天做 | 国产福利vr专区精品 | 天天久久综合 | 夜夜夜爽bbbb性视频 | 国产成人精品高清免费 | 男子扒开美女尿口做羞羞的事 | 日本视频三区 | www日本黄色| 亚洲一区二区三区四区在线 | 一级录像 | 精品99久久 | 久久精品人人爽人人爽 | 国产亚洲精品仙踪林在线播放 | 国产h视频在线观看高清 | 手机在线观看免费视频 | 国产亚洲情侣久久精品 | 国产午夜毛片一区二区三区 | 在线视频亚洲一区 | 在线播放91灌醉迷j高跟美女 | 国产视频国产 | 伊人色综合久久天天爱 | 国产人成午夜免视频网站 | 国产男人女人做性全过程视频 | 亚洲免费视频一区 | 免费啪视频在线观看 | 色综合天天综合 | 91国内在线 | 欧美黄色免费 | 国产精品久久久久久吹潮 | 亚洲最大的成网4438 | 亚洲一区二区三区在线播放 | 成人性视频网站 | 国产精品www视频免费看 | 狠狠色丁香婷婷综合最新地址 | 天天射夜夜骑 | 久久婷五月综合 | 亚洲综合情 | 天天爽夜夜操 | 伊人网站在线观看 | 久久这里只有精品任你色 |