通過語音和視頻通話與他人在線聯(lián)系逐漸成為日常生活的一部分,這得益于 WebRTC 等實時通信框架,而后者依靠高效的壓縮技術(shù)和編解碼器,解碼或編碼傳輸和存儲的信號。數(shù)十年來,編解碼器一直是媒體應用的重要組成部分,可使需要占用大量帶寬的應用高效傳輸數(shù)據(jù),支持用戶隨時隨地進行高質(zhì)量通信。
因此,在開發(fā)視頻和音頻編解碼器時,一項長期目標就是提高信號質(zhì)量,減少數(shù)據(jù)使用,以及最大程度降低實時通信延遲。雖然與音頻相比,視頻貌似會占用更多帶寬,但現(xiàn)代視頻編解碼器能夠?qū)崿F(xiàn)比較低的比特率,甚至可能低于目前某些高質(zhì)量語音編解碼器所能達到的值。將低比特率視頻和語音編解碼器相結(jié)合,即使在低帶寬網(wǎng)絡中也能實現(xiàn)高質(zhì)量的視頻通話體驗。但是根據(jù)過往經(jīng)驗,音頻編解碼器的比特率越低,語音信號的清晰度就越差,聲音也越像機器人。此外,盡管部分人可以訪問穩(wěn)定的高質(zhì)量、高速網(wǎng)絡,但這種網(wǎng)絡連接水平并不普遍,即便在網(wǎng)絡良好的地區(qū),有時也會遇到質(zhì)量差、帶寬低和網(wǎng)絡擁堵的情況。
為解決這一問題,我們構(gòu)建了 Lyra。這是一款比特率極低的高質(zhì)量語音編解碼器,即使在最慢的網(wǎng)絡上也可以實現(xiàn)語音通信。為此,我們采用傳統(tǒng)編解碼器技術(shù),同時利用機器學習 (ML) 的優(yōu)勢,使用基于數(shù)千小時數(shù)據(jù)進行訓練的模型,創(chuàng)造出一種全新的語音信號壓縮與傳輸方法。
Lyra 概覽
Lyra 編解碼器的基礎(chǔ)架構(gòu)非常簡單。每隔 40 毫秒,該編解碼器都會從語音中提取特征或獨特的語音屬性,將其壓縮后傳輸。這些特征本身為對數(shù)梅爾聲譜圖,是一系列代表不同頻段語音能量的數(shù)字,因其根據(jù)人類的聽覺反應建模,具有感知相關(guān)性,所以一直以來得以應用于相關(guān)領(lǐng)域。在另一端,生成模型使用這些特征重建語音信號。就這一點來說,Lyra 與其他傳統(tǒng)參數(shù)編解碼器非常相似,如 MELP。
但是,傳統(tǒng)參數(shù)編解碼器只是簡單地從語音中提取關(guān)鍵參數(shù),然后在接收端用參數(shù)重建信號,雖然可以實現(xiàn)低比特率,但聲音往往聽起來像機器人一樣,并不自然。這些缺點促使相關(guān)人員開發(fā)新一代高質(zhì)量音頻生成模型,這些模型不僅能夠區(qū)分信號,還可以生成全新的信號,為這一領(lǐng)域帶來了巨大變革。DeepMind WaveNet 為首個生成模型,為之后的模型鋪平了道路。此外,WaveNetEQ,即目前 Duo 中使用的基于生成模型的丟包隱藏系統(tǒng),就是將此技術(shù)用于真實場景的成果。
Lyra 壓縮的全新方法
以這些模型為基準,我們開發(fā)了一個全新的模型,能夠使用少量數(shù)據(jù)重建語音。Lyra 利用這些強大的新型自然語音生成模型,確保將參數(shù)編解碼器的比特率維持在較低水平,同時實現(xiàn)較高質(zhì)量,達到與當今大多數(shù)直播和通信平臺所用頂尖波形編解碼器相當?shù)谋憩F(xiàn)。波形編解碼器的缺點在于,要達到這種高質(zhì)量水平,必需逐一壓縮和發(fā)送信號樣本,這需要更高的比特率,并且在大多數(shù)情況下,并不是實現(xiàn)自然語音的必要條件。
生成模型的一個問題在于其計算復雜度。Lyra 使用成本更低的遞歸生成模型,即 WaveRNN 變體,從而避免了這一問題。該模型以較低的比特率運行,但可并行生成頻率范圍不同的多個信號,然后以所需采樣率將其組合為單個輸出信號。得益于這一設(shè)計,Lyra 不僅可以在云服務器上運行,還可以在中檔手機設(shè)備上實時運行(處理延遲為 90 毫秒,與其他傳統(tǒng)語音編解碼器相當)。與 WaveNet 類似,此生成模型基于數(shù)千小時的語音數(shù)據(jù)訓練,可準確重建輸入的音頻。
與現(xiàn)有編解碼器對比
自 Lyra 問世以來,我們一直致力于以遠低于現(xiàn)有編解碼器的比特率實現(xiàn)最高的音頻質(zhì)量。目前,免版稅的開源編解碼器 Opus 是 WebRTC 型 VOIP 應用中使用最廣泛的編解碼器,在音頻為 32 Kbps 時,通常可以實現(xiàn)與原始語音幾無差別的語音質(zhì)量。然而,盡管 Opus 可以在帶寬受限的環(huán)境中運行,且比特率最低可達 6 Kbps,但聲音質(zhì)量會明顯下降。Speex、MELP、AMR 等其他編解碼器雖然也能夠?qū)崿F(xiàn)與 Lyra 相當?shù)谋忍芈剩曇艚詴д妫犉饋硐駲C器人一樣。
根據(jù)目前的設(shè)計,Lyra 會以 3 Kbps 的比特率運行。聽音測試表明,Lyra 在該比特率下的性能優(yōu)于其他所有編解碼器,并且與 Opus 在 8 Kbps 比特率下的表現(xiàn)相當,因此可節(jié)省 60% 以上的帶寬。在帶寬條件不足以滿足較高比特率,且現(xiàn)有低比特率編解碼器無法實現(xiàn)所需質(zhì)量時,可以使用 Lyra。
確保公平
與所有基于 ML 的系統(tǒng)一樣,必須對模型進行訓練,確保其滿足所有人的需求。我們利用開源音頻庫對 Lyra 進行訓練,音頻數(shù)據(jù)長達數(shù)千個小時,涵蓋 70 余種語言,然后與專家和眾包聽眾一同驗證音頻質(zhì)量。
我們設(shè)計 Lyra 的一個目標在于確保人人都能獲得高質(zhì)量的音頻體驗。用于訓練 Lyra 的數(shù)據(jù)集范圍廣泛,涵蓋多種語言,可確保編解碼器能夠穩(wěn)健應對可能遇到的任何情況。
社會影響和我們未來的發(fā)展方向
無論從短期還是長期來看,Lyra 等技術(shù)都具有重要而廣泛的影響。有了 Lyra,數(shù)十億新興市場的用戶就能使用高效的低比特率編解碼器,獲得遠高于以往的音頻質(zhì)量。此外,Lyra 也可用于云環(huán)境,幫助使用不同網(wǎng)絡和設(shè)備的用戶順暢地聊天。將 Lyra 與 AV1 等全新視頻壓縮技術(shù)相結(jié)合,可為較差網(wǎng)絡環(huán)境中的視頻聊天提供支持。用戶即使通過調(diào)制解調(diào)器撥號上網(wǎng),網(wǎng)速只有 56 Kbps,也可以進行視頻聊天。
Duo 已使用 ML 來減少音頻中斷,目前正推出 Lyra,以求在連接帶寬極低時,提高語音通話的質(zhì)量和可靠性。我們將繼續(xù)優(yōu)化 Lyra 的性能和質(zhì)量,以盡可能地提高技術(shù)的可用性,同時還會開展 GPU 加速和 TPU 加速的相關(guān)研究。我們還將著手研究如何基于這些技術(shù)開發(fā)比特率較低的通用音頻編解碼器,即音樂和其他非語音用例。
原文標題:推出 Lyra:用于語音壓縮的新型極低比特率編解碼器
文章出處:【微信公眾號:TensorFlow】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
責任編輯:haq
-
編碼器
+關(guān)注
關(guān)注
45文章
3790瀏覽量
137837 -
機器學習
+關(guān)注
關(guān)注
66文章
8500瀏覽量
134482
原文標題:推出 Lyra:用于語音壓縮的新型極低比特率編解碼器
文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
CYW20721內(nèi)置的所有編解碼器類型有哪些?
AI玩具爆發(fā),音頻編解碼器如何滿足語音交互需求
TWL6040 用于便攜式應用的 8 通道高質(zhì)量低功耗音頻編解碼器數(shù)據(jù)手冊

TWL6041 用于便攜式應用的 8 通道高質(zhì)量低功耗音頻編解碼器數(shù)據(jù)手冊

一款專為便攜式數(shù)字音頻應用而設(shè)計的單聲道編解碼器-CJC8911

TLV320AIC28音頻編解碼器評估模塊

用于便攜式數(shù)字音頻應用的低功率、高質(zhì)量的立體聲編解碼器

配置I2S以從編解碼器設(shè)備生成BCLK

Linux上的編解碼器移植TMS320DM365預覽版

TMS320DM365中的智能編解碼器功能

一款低功率、高質(zhì)量的單聲道音頻編解碼器 - CJC8911

帶你探索HiFi智能編解碼器的奇妙世界

評論