【編者按】Kanda機器學習工程師Daniel Rothmann回顧了現(xiàn)有的機器學習音頻處理方法,提出了未來可能的發(fā)展方向。
這兩年來AI,特別是深度學習發(fā)展迅猛,我們在圖像和視頻處理方面看到了大量AI技術(shù)的應用。盡管AI進入音頻世界的步伐要晚一點,我們同樣看到了令人印象深刻的技術(shù)進展。
在這篇文章中,我將總結(jié)一些進展,勾勒下AI在音頻處理方面的潛力,同時描述下這條路線上可能碰到的問題和挑戰(zhàn)。
趨向更智能的音頻
我對音頻處理方面的AI應用的興趣源于2016年底DeepMind的WaveNet的發(fā)表——WaveNet是一個生成音頻錄音的深度學習模型1。這一基于自適應網(wǎng)絡架構(gòu)的擴張卷積神經(jīng)網(wǎng)絡能夠成功生成很有說服力的文本到語音轉(zhuǎn)換,并能基于經(jīng)典鋼琴錄音訓練出有趣的類似音樂的錄音。
我們在商業(yè)世界中看到了更多機器學習應用——例如LANDR,一個自動母帶后期處理服務,該服務依靠AI設定數(shù)字音頻處理和增益細化的參數(shù)。
專業(yè)音頻軟件巨頭iZotope在2017年發(fā)布了Neutron 2,這個混音工具的特色是利用AI檢測樂器并向用戶建議裝置預設的“音軌助手”。iZotope的音頻修復套件RX 6中還有一個分離談話的工具,同樣基于AI技術(shù)。
AI在數(shù)字信號處理方面的潛力
AI在音頻處理上的應用仍處于早期。深度學習方法讓我們可以從一個全新的角度應對信號處理問題,但整個音頻行業(yè)對此的認知遠遠不夠。目前而言,音頻行業(yè)專注于公式化的處理方法:深入理解問題后,手工設計求解函數(shù)。然而,理解聲音是一項非常復雜的任務,我們?nèi)祟愔庇X上認為相當容易的問題實際上很難公式化地描述。
以音源分離為例:在一個兩個人同時說話的場景下,你的大腦不需要費多少功夫就可以想象任何一個人在單獨說話。但是我們?nèi)绾蚊枋龇蛛x這兩個語言的公式呢?好,它取決于:
有描述人類嗓音的統(tǒng)一方式嗎?如果答案是肯定的,性別、年齡、精力、個性等參數(shù)是如何影響這一描述的呢?聽話人的物理距離和房間的音響效果如何影響這一理解?錄音中可能出現(xiàn)的非人類發(fā)出的噪聲如何處理?通過什么參數(shù)可以將一個人的嗓音和另一個人區(qū)分開來?
如你所見,設計一個全面兼顧這一問題的公式需要關注大量參數(shù)。AI在這里提供了一種更實用的方法——通過設定學習的恰當條件,我們通過統(tǒng)計學方法自動估計這一復雜函數(shù)。事實上,助聽器生產(chǎn)商Oticon研發(fā)中心Eriksholm的研究人員提出了一種基于卷積循環(huán)神經(jīng)網(wǎng)絡架構(gòu)在實時應用中更好地分離音源的方法2。
由于基于深度神經(jīng)網(wǎng)絡處理音頻的方法仍在不斷改進之中,我們只能開始設想下可能解決的一些困難問題——下面是我在深度學習用于實時音頻處理方面的一些設想:
選擇性噪聲消除,例如移除汽車的聲音。
Hi-fi音頻重建,例如基于小型、低質(zhì)的麥克風采集的音頻。
語音處理,例如更改錄音的說話人、方言、語言。
改善空間模擬,用于回響、雙耳統(tǒng)合處理。
表示和架構(gòu)上的挑戰(zhàn)
WaveNet是最早在原始樣本層次成功生成音頻的嘗試之一。這里有一大問題,CD音質(zhì)的音頻通常以每秒44100的采樣率存儲,因此WaveNet需要幾小時才能生成幾秒的音頻。這在實時應用中就不行了。
另一方面,許多基于神經(jīng)網(wǎng)絡處理音頻的現(xiàn)有方案利用光譜表示和卷積網(wǎng)絡。這些方案基本上將音頻頻譜可視化為2D圖像,然后使用卷積網(wǎng)絡掃描、處理圖像3。通常,這些方法的結(jié)果并不像視覺領域的結(jié)果那么有吸引力,比如CycleGAN可以對電影進行令人印象深刻的風格遷移4。
電影和音頻剪輯有一些相同之處,它們都描繪了時間之上的運動。考慮到CycleGAN這樣在圖像處理網(wǎng)絡方面的創(chuàng)新,有人可能會假定音頻上同樣可以進行這樣的風格遷移。
但電影和音頻剪輯不是一回事——如果我們凍結(jié)電影的一幀,從這一幀中仍能得到相當多的關于行動的信息。但如果我們凍結(jié)音頻的“一幀”,其中只有極少的信息。這意味著,相比電影,音頻在基礎上更依賴時間。在光譜中,我們也從來不會假定一個像素屬于單個對象:音頻永遠“細如絲線”,光譜在同一幀中顯示所有混雜在一起的聲響3。
卷積神經(jīng)網(wǎng)絡的設計借鑒了人類的視覺系統(tǒng),最初基于視皮層的信息傳播過程5。我相信,這里有一個值得考慮的問題。我們基本是將音頻轉(zhuǎn)換成圖像,然后在圖像上進行視覺處理,再轉(zhuǎn)換回音頻。所以,我們是用機器視覺來處理機器聽覺。但是,從直覺上說,這兩種感官的工作方式是不一樣的。看看下面的光譜,憑借你聰慧的人類大腦,你能從中得到多少關于音頻實際內(nèi)容的有意義的信息?如果你可以聽到它,你將很快直觀地體會到正在發(fā)生什么。也許這正是阻礙面向音頻的AI輔助技術(shù)發(fā)展的問題所在。
5秒的光譜(這是藍調(diào)口琴)
因此我提議,神經(jīng)網(wǎng)絡要想在音頻處理上取得更好的結(jié)果,我們應該集中精力找到專門針對音頻的更好表示和神經(jīng)網(wǎng)絡架構(gòu)。比如自相關圖這樣包括時間、頻率、周期性的三維表示6。人類可以基于直覺比較聲音的周期性,找出模式的相似性,以區(qū)分音源。音高和節(jié)奏也是時間因素的結(jié)果。因此像自相關圖這樣更關注時間的表示,可能有用。
表示聲音的自相關圖(圖片來源:shef.ac.uk)
此外,我們可以開始設想在架構(gòu)上建模聽覺系統(tǒng)的神經(jīng)通路。當聲音刺激耳膜并傳至耳蝸時,根據(jù)頻率的不同,它會轉(zhuǎn)為不同幅度。接著聲音傳至中央聽覺系統(tǒng)進行時間模式處理。中央聽覺系統(tǒng)中負責從音頻中收集意義的分析模式中,哪一種可以通過人工神經(jīng)網(wǎng)絡建模?也許是周期性6,也許是聲音事件的統(tǒng)計學分組7,也許是分析的擴張時間幀1。
聽覺系統(tǒng)示意圖(圖片來源:Universit?t Zu Lübeck)
結(jié)語
AI領域的發(fā)展為智能音頻處理提供了很大潛力。但要讓神經(jīng)網(wǎng)絡更好地理解聲音,我們也許需要離內(nèi)在地視覺上的方法遠一點,轉(zhuǎn)而考慮基于聽覺系統(tǒng)的新技術(shù)。
這篇文章中,相比提供的答案,我提出了更多的問題,希望能引起你對此的思考。
這是機器聽覺系列文章的第一篇,后續(xù)文章將于近期翻譯,敬請期待。
-
AI
+關注
關注
87文章
30896瀏覽量
269110 -
機器學習
+關注
關注
66文章
8418瀏覽量
132646
原文標題:機器聽覺:一、AI在音頻處理上的潛力
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論