在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于光譜圖利用CNN進行音頻處理效果不佳的原因

zhKF_jqr_AI ? 來源:未知 ? 2018-11-29 09:01 ? 次閱讀

編者按:Kanda機器學習工程師Daniel Rothmann分析了基于光譜圖利用CNN進行音頻處理效果不佳的原因。

圖片來源:Jack Hamilton

近幾年來,基于神經網絡生成、處理圖像方面有很多偉大的成果。這部分歸功于深度CNN在捕捉、轉換圖像的高層信息上的強大表現。一個知名的例子是L. Gatys等提出的使用CNN轉換圖像風格的方法,該方法能夠以不同的風格渲染圖像的語義內容。

Y. Li等很好地解釋了神經風格遷移的過程:“該方法使用CNN不同層的神經激活組成的格拉姆矩陣表示圖像的藝術風格。接著使用迭代優化方法,通過神經激活匹配內容圖像,格拉姆矩陣匹配風格圖像,從白噪聲生成新圖像。”

簡單地說,根據源內容圖像和風格圖像在不同抽象水平上的特征組合生成圖像,得到了這些結果。例如,保持內容圖像的高層結構和輪廓,納入風格圖像的顏色和低層紋理。

圖片來源:L. Gatys等

視覺處理領域風格遷移的表現相當令人印象深刻,所以人們很自然地想到利用CNN優化“更智能”的音頻處理算法,例如,使用CNN分析和處理音頻的光譜。將光譜作為圖像處理,并基于CNN進行神經風格遷移,這是可以做到的,但到目前為止,我們得到的結果遠遠不能和視覺圖像相比。

為了克服這一挑戰,在神經音頻處理上得到更好的結果,我們也許需要考慮下為什么基于CNN的風格遷移在光譜上的表現不佳。這些技術基本上是通過應用機器視覺來進行機器聽覺任務。我相信這帶來了一個本質問題,可能阻礙了AI輔助技術在音頻處理上的進展。盡管這個問題無疑可以從許多角度考慮,探索下圖像和光譜的區別,還有視覺和聽覺的一些不同,也許是值得的。

聲音是“透明的”

通過比較視覺圖像和光譜,我們可以發現視覺物體和聲音事件積聚的方式不同。用視覺來類比,聲音總是“透明的”而大多數視覺物體是不透明的。

遇到圖像中某一顏色的像素時,大多數情況下我們都可以假定它屬于單個物體,而不同的聲音事件在光譜圖上并不分層。這意味著,我們不能假定光譜圖中觀察到的某一具體頻率屬于單個聲音,因為該頻率的幅度可能是任意數目的聲音累加所得,甚至是相位相抵這樣的聲波間的復雜交互。所以,在光譜表示中,區分同時發生的聲音很難。

上圖展示了三個光譜分析的困難場景。左:相似的音調導致頻率上不均勻的相位相抵。中:難以分離音高相似的同時發生的嗓音。右:噪雜、復雜的聲音場景,使得區分聲音事件特別困難。

光譜的軸攜帶不同的含義

用于圖像的CNN使用在x和y維度共享權重的二維過濾器4。如前所述,這一切建立在圖像的特征攜帶的含義與其位置無關這一假定上。例如,不管圖像中的人臉是橫向的,還是縱向的,它始終是一張人臉。

而光譜圖的兩個維度表示根本不同的單位,一個是頻率的強度,另一個是時間。橫向移動聲音事件意味著它在時間上的位置發生了偏移,可以主張,不管它是何時發生的,一個聲音事件都意味著同一件事。然而,縱向移動聲音也許會影響其含義:例如,向上移動男性嗓音的頻率可能使含義從男子變為小孩或哥布林。聲音事件的頻率調整也可能改變聲音的空間范圍4。因此,二維CNN提供的空間不變性在這種形式的數據上也許表現沒有那么好。

聲音的光譜性質不是局部的

在圖像上,相似的相鄰像素經常被假定為屬于同一視覺物體,但在聲音上,頻率大多數情況下在光譜上的分布是非局部的4。周期性的聲音通常由基礎頻率和若干泛音組成。這些泛音的混合決定了音質。

在女性人聲的例子中,某一時刻的基礎頻率也許是200Hz,而第一泛音是400Hz,接下來是600Hz,以此類推。這些頻率并不存在局部分組,但以共同關系一起移動。這使基于二維卷積在光譜中找出局部特征這一任務變得更困難了,因為盡管這些泛音根據同一因素移動,但在空間上經常呈不均勻分布。

女性人聲頻率的非局部分布

聲音內在地是序列的

評估視覺環境時,我們可以多次“掃描”周邊以定位場景中的每個視覺物體。由于大多數物體不是移動的,它們反射光線的方式是可預測的,我們可以建立它們在物理場景下的擺放位置的心智地圖。從感知的角度來說,我們假定視覺物體在觀測到的位置上持續存在,即使當我們轉頭查看別處時也是如此。

在聲音上這不成立。聲音采用壓力波的物理形式,從聽者的角度來說,這樣的波在某一時刻的狀態僅僅是當前的。過了這一時刻,聲波便悄然離去。之所以將這一現象稱為聲音事件而不是物體,正是因為如此。從物理上說,這意味著聽者僅在每一時刻體驗到聲音。圖像包含了大量的靜態并行信息,而聲音是高度序列化的。

更合適的比較是音頻和視頻。這兩個媒體都可以被認為描述時間上的運動,其中時間上的依賴性對內容含義的體驗是必不可少的。由于視頻是由一組圖像(幀)構成的,它包含更多并行信息。

演示這一點的其中一個方法是在這兩個媒體中“凍結”某一時刻。查看視頻的一幀(常常是約1/25秒的曝光時間),我們經常仍舊能夠收集關于上下文、行動、場景的大量信息:我們可以識別單個物體,有時還能估計行動和移動。但當“凍結”音頻的某一時刻(例如約1/25秒的信息聚合),基于光譜分析的估計就不可能那么全面。我們可以搜集一些關于信號的總音調平衡和特性的信息,但程度遠不及視頻。

例如,不可能從時間上下文之外識別單獨的聲音事件,以查看相同時間模式上的光譜發展。唯一可以確定的就是某一特定時刻聽到的聲音的音調平衡。我們之前提到過,聲音的物理形式是波,這就解釋了為什么:聲音不以靜態物體的形式存在,無法并行觀測,它們以氣壓序列的形式到達,通過時間才能建立這些壓力的意義。

這些原因暗示了聲音作為傳達含義的媒體在本質上是序列的,比視頻更依賴時間。這是將聲音的視覺光譜表示傳入圖像處理網絡,而沒有考慮到時間的方法可能效果不佳的另一個原因。

建模人類體驗的一個例子

通過建模人類系統,AI技術取得了突破性的進展。盡管人工神經網絡是數學模型,僅僅從實際的人類神經元功能上得到了一些最初的啟示,它們在解決復雜、不明確的真實世界問題上的應用有目共睹。在這些神經網絡中建模大腦架構上的深度為學習數據的更多有意義表示開啟了廣泛的可能性。在圖像辨認和處理方面,CNN從視覺系統的復雜的空間不變性上得到的啟發已經在技術上產生了很大的進展。

正如J. B. Allen在“How Do Humans Process and Recognize Speech?”(人類如何處理和辨識語音)一文中所主張的,只要人類的感知能力超過機器,我們就能持續從理解人類系統的原則中獲得收益5。一般來說,人類在感知任務上非常靈巧,而人類理解和AI現狀在機器聽覺領域的差別尤為明顯。考慮到從人類系統獲得的啟發在視覺處理領域的收獲(以及視覺模型在聲音上表現沒那么好這一點),我覺得我們在基于神經網絡的機器聽覺上也能從借鑒人類系統中持續獲得收益。

這是機器聽覺系列的第二篇,如果你錯過了第一篇,可以點擊下面這個鏈接:

背景:AI在音頻處理上的潛力

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4804

    瀏覽量

    102645
  • 圖像
    +關注

    關注

    2

    文章

    1092

    瀏覽量

    40987
  • cnn
    cnn
    +關注

    關注

    3

    文章

    354

    瀏覽量

    22619

原文標題:機器聽覺:二、基于光譜圖和CNN處理音頻有何問題?

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    基于CNN-LSTM網絡的電力負荷預測

    為了及時掌握電力負荷的變動信息,就需要對電力負荷進行準確預測。鑒于此,探究出一種CNN和LSTM的組合模型來預測一日到一周的電力短期負荷波動情況。CNN模型負責從輸入信息中提取特征,LSTM模型
    的頭像 發表于 11-09 14:13 ?3252次閱讀
    基于<b class='flag-5'>CNN</b>-LSTM網絡的電力負荷預測

    基于數字CNN與生物視覺的仿生眼設計

    個8×8的數字CNN陣列,并對其圖像處理功能進行了仿真,實驗結果證明,該數字CNN陣列可以對二值圖像進行特征提取等操作,圖6為水平檢測以及圖
    發表于 09-19 09:35

    音樂編輯與效果處理入門

    音樂編輯軟件有多種選擇,對于大多來說需要的功能一般包括:錄音,對錄音內容進行剪輯,加入一些特殊效果等等。WAVECN是一個國產的免費非線性音頻編輯軟件,全名是中錄音編輯處理器WAVEC
    發表于 03-12 02:16

    請問有知道怎么用labview對光譜儀采集的光譜進行處理的么

    現在我利用光譜儀采集到激光光譜,想利用labview對其進行背景去噪等,但是首先不會將光譜導入到labview中,采集的格式為csv,asc
    發表于 07-23 10:46

    基于Keras利用cv2建立訓練存儲CNN模型(2+1)調用攝像頭實現實時人臉識別

    CV之CNN:基于Keras利用cv2建立訓練存儲CNN模型(2+1)并調用攝像頭進行實時人臉識別
    發表于 12-26 11:09

    如何利用PyTorch API構建CNN?

      很多人對于卷積神經網絡(CNN)并不了解,卷積神經網絡是一種前饋神經網絡,它包括卷積計算并具有很深的結構,卷積神經網絡是深度學習的代表性算法之一。那么如何利用PyTorch API構建CNN
    發表于 07-16 18:13

    SPC5Studio 6.0 CDT效果不佳是何原因

    請重新在線更新SPC5Studio-5.8.1 reposity。SPC5Studio 6.0 CDT 效果不佳
    發表于 12-06 07:06

    深度探析7大類深度CNN創新架構

    深度卷積神經網絡(CNN)是一種特殊類型的神經網絡,在各種競賽基準上表現出了當前最優結果。本綜述將最近的 CNN 架構創新分為七個不同的類別,分別基于空間利用、深度、多路徑、寬度、特征圖利用
    的頭像 發表于 01-27 11:01 ?4446次閱讀
    深度探析7大類深度<b class='flag-5'>CNN</b>創新架構

    音頻處理器的作用_音頻處理器和效果器的區別

    本文主要闡述了音頻處理器的作用及音頻處理器和效果器的區別。
    發表于 04-09 10:41 ?3.2w次閱讀

    如何使用C672x有效地創建基于延遲的音頻效果

    基于延遲的音頻效果。 如何利用數據移動加速器 (dMAX) 為基于延遲的應用程序移動數據。 如何在基于延遲的音頻效果
    的頭像 發表于 06-17 10:22 ?1843次閱讀
    如何使用C672x有效地創建基于延遲的<b class='flag-5'>音頻</b><b class='flag-5'>效果</b>

    融合雙層多頭自注意力與CNN的回歸模型

    內部的詞依賴關系,從而捕獲序列的內部結構。重利用淺層特征并與多頭自注意力特征進行融合,結合深度學習中的CNN進一步優化文本情感極性分析效果。在基準數據集 Semeval-2017Tas
    發表于 03-25 15:16 ?6次下載
    融合雙層多頭自注意力與<b class='flag-5'>CNN</b>的回歸模型

    為什么傳統CNN在紋理分類數據集上的效果不好?

    作者:TraptiKalra來源:AI公園,編譯:ronghuaiyang導讀本文分析了常見的紋理數據集以及傳統CNN在紋理數據集分類上效果不佳原因。在機器視覺任務中,將紋理分析與深
    的頭像 發表于 09-23 14:26 ?1003次閱讀
    為什么傳統<b class='flag-5'>CNN</b>在紋理分類數據集上的<b class='flag-5'>效果</b>不好?

    音頻處理器和功放的區別 好功放和普通功放有什么區別

    音頻處理器主要用于對音頻信號進行處理、調節和效果處理
    的頭像 發表于 07-14 14:24 ?6459次閱讀

    如何利用CNN實現圖像識別

    卷積神經網絡(CNN)是深度學習領域中一種特別適用于圖像識別任務的神經網絡結構。它通過模擬人類視覺系統的處理方式,利用卷積、池化等操作,自動提取圖像中的特征,進而實現高效的圖像識別。本文將從C
    的頭像 發表于 07-03 16:16 ?2339次閱讀

    如何利用地物光譜進行土地利用分類?

    在土地利用分類領域,地物光譜技術正發揮著日益重要的作用。下面就為大家簡要介紹如何利用地物光譜進行土地利用
    的頭像 發表于 12-13 14:44 ?370次閱讀
    如何<b class='flag-5'>利用</b>地物<b class='flag-5'>光譜</b><b class='flag-5'>進行</b>土地<b class='flag-5'>利用</b>分類?
    主站蜘蛛池模板: 亚洲成人aaa| 天天天操| 一区二区三区四区在线观看视频 | 又黄又爽又猛午夜性色播在线播放 | 五月天婷婷在线视频 | 性欧美黑人巨大videos | 大桥未久加勒比女热大陆在线 | 一道精品视频一区二区三区男同 | 亚洲精品久久久久午夜三 | 女的扒开尿口让男人桶爽 | 色多多www| 手机看片99 | 丁香伊人五月综合激激激 | 免费视频播放 | 久久永久免费 | 黄黄视频在线观看 | 丁香激情六月 | 亚洲国产成人精品女人久久久 | 黄色大片在线免费观看 | 欧美一级免费观看 | 亚洲美女黄视频 | 一本到卡二卡三卡免费高 | 久久影视精品 | 狠狠干奇米 | 国产精品视频一区二区三区 | 轻点灬大ji巴太粗太长了爽文 | 精品国产免费观看一区高清 | 酒色成人| 色视频网站大全免费 | 日本亚洲高清乱码中文在线观看 | 一区二区三区四区在线观看视频 | 国产精品资源手机在线播放 | 亚洲欧美日韩高清mmm777 | 日本人xxxxxxxxx69 | 夜色资源站www国产在线观看 | 天天在线天天综合网色 | 优优国产在线视频 | 最新版天堂资源官网 | 色老头网站久久网 | 狠狠狠狠狠狠 | 黄色大片网 |