Meta 近日在一篇題為 “High Fidelity Neural Audio Compression”(高保真神經(jīng)音頻壓縮)的論文中公布了一項名為 "EnCodec" 的開源音頻壓縮技術,該技術由 AI 驅動,可以在音頻質量沒有損失的前提下,將音頻壓縮到比 MP3 格式還要小 10 倍的程度。
Meta 將這項技術的實現(xiàn)方法分成了一個由三部分組成的系統(tǒng),經(jīng)過訓練后的 AI 可以將音頻壓縮到所需的目標大小,其實現(xiàn)過程如下:
首先,編碼器將未壓縮的數(shù)據(jù)轉換為較低幀率的 "latent space" 表示(representation);
然后,量化器將這個表示壓縮到目標大小,同時跟蹤最重要的信息,這些信息以后將被用于重建原始信號(這個壓縮信號將通過網(wǎng)絡發(fā)送或保存在磁盤上);
最后,解碼器使用單個 CPU 上的神經(jīng)網(wǎng)絡將壓縮的數(shù)據(jù)實時地轉變回音頻;
至于應用,Meta 表示這種由人工智能驅動的 "超壓縮音頻" 可以在惡劣的網(wǎng)絡條件下獲得更快、更優(yōu)質的通話效果。作為一家 “梭哈” 元宇宙的公司,這項技術還可以提供更加豐富的元宇宙體驗(視頻會議、影音流媒體、VR 游戲等),而不需要提高帶寬。 除了語音通話,這項技術同樣可以應用于音樂領域,未來我們有望可以獲得高品質、小體積的音頻文件。 目前這項技術仍處于研究階段,源代碼和一些音頻樣本都已公開在 GitHub 上:https://github.com/facebookresearch/encodec
審核編輯 :李倩
-
人工智能
+關注
關注
1804文章
48449瀏覽量
245060 -
Meta
+關注
關注
0文章
299瀏覽量
11669
原文標題:比MP3小10倍,Meta公開全新音頻壓縮技術
文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
KT142C語音芯片支持的語音文件格式什么?Mp3還是wav呢?

學習機MP3語音芯片方案:WMV硬解碼芯片,N9301-316

KT148A語音芯片一個mp3語音,有辦法分成一段一段的嗎

N930X指定曲目播放MP3音樂芯片:提升睡眠儀體驗

請問TLV320DAC3120可以用作MP3的解壓芯片嗎?
能在DSP的存儲器上存MP3或其他格式的音頻文件,由DSP讀后控制TLV320AIC23轉換成語音?
請問如何把WAV,MP3格式的音頻文件轉化為16位的數(shù)據(jù)IIS格式?
九芯電子電子琴語音芯片的無限可能——N930X-S16 MP3解碼芯片

N9305 MP3語音芯片:外掛FLASH自定義語音播放解決方案

使用example中的pwm播放mp3,在mp3_music_read_cb中使用fread讀取,會出現(xiàn)fread讀取異常怎么解決?
ESP32-PICO-V3-02實現(xiàn)MP3播放遇到的幾個疑問求解
SONY MP3不刷系統(tǒng)漢化界面
N9300-S16音樂MP3芯片:電子琴的革命性突破

評論