比MP3小10倍，Meta公開全新音頻壓縮技術

Meta 近日在一篇題為 “High Fidelity Neural Audio Compression”（高保真神經(jīng)音頻壓縮）的論文中公布了一項名為 "EnCodec" 的開源音頻壓縮技術，該技術由 AI 驅動，可以在音頻質量沒有損失的前提下，將音頻壓縮到比 MP3 格式還要小 10 倍的程度。

Meta 將這項技術的實現(xiàn)方法分成了一個由三部分組成的系統(tǒng)，經(jīng)過訓練后的 AI 可以將音頻壓縮到所需的目標大小，其實現(xiàn)過程如下：

首先，編碼器將未壓縮的數(shù)據(jù)轉換為較低幀率的 "latent space" 表示（representation）；

然后，量化器將這個表示壓縮到目標大小，同時跟蹤最重要的信息，這些信息以后將被用于重建原始信號（這個壓縮信號將通過網(wǎng)絡發(fā)送或保存在磁盤上）；

最后，解碼器使用單個 CPU 上的神經(jīng)網(wǎng)絡將壓縮的數(shù)據(jù)實時地轉變回音頻；

至于應用，Meta 表示這種由人工智能驅動的 "超壓縮音頻" 可以在惡劣的網(wǎng)絡條件下獲得更快、更優(yōu)質的通話效果。作為一家 “梭哈” 元宇宙的公司，這項技術還可以提供更加豐富的元宇宙體驗（視頻會議、影音流媒體、VR 游戲等），而不需要提高帶寬。除了語音通話，這項技術同樣可以應用于音樂領域，未來我們有望可以獲得高品質、小體積的音頻文件。目前這項技術仍處于研究階段，源代碼和一些音頻樣本都已公開在 GitHub 上：https://github.com/facebookresearch/encodec

審核編輯：李倩

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1804

文章
48449

瀏覽量
245060
Meta

Meta

+關注

關注
0

文章
299

瀏覽量
11669

原文標題：比MP3小10倍，Meta公開全新音頻壓縮技術

文章出處：【微信號：OSC開源社區(qū)，微信公眾號：OSC開源社區(qū)】歡迎添加關注！文章轉載請注明出處。

KT142C語音芯片支持的語音文件格式什么？Mp3還是wav呢？

真沒有必要 2、如果客戶強烈需要，我們也是可以添加的。但是KT142C內置的寶貴可用空間就變少了 3、因為同等音質、同等時長的mp3文件，比wav文件體積小很多很多。所以優(yōu)先壓縮

發(fā)表于 02-17 11:07 ?255次閱讀

學習機MP3語音芯片方案：WMV硬解碼芯片，N9301-316

在當今數(shù)字化時代，學習機已不再僅僅是靜態(tài)的物品。隨著技術的快速發(fā)展和不斷探索創(chuàng)新方法，人們將音樂與互動學習相融合，為兒童創(chuàng)造出更加富有創(chuàng)意和學習機產(chǎn)品。其中，九芯電子N9301系列MP3解碼芯片

發(fā)表于 02-07 18:31 ?209次閱讀

KT148A語音芯片一個mp3語音，有辦法分成一段一段的嗎

第一步：生成語音素材：到這一步，就實現(xiàn)了語音素材的生成，下載下來就是一整個mp3文件詳見KT148A資料包里面的文檔說明第二步：將需要的語音素材剪裁使用的是Adobe

發(fā)表于 01-22 16:11 ?348次閱讀

N930X指定曲目播放MP3音樂芯片：提升睡眠儀體驗

N930X MP3芯片集成硬解碼，支持定制播放、智能定時、低功耗、自主更新，兼容多種控制及音頻格式，提升睡眠儀體驗，滿足高質量睡眠追求。

發(fā)表于 12-11 14:29 ?439次閱讀

N930X指定曲目播放MP3音樂芯片：提升睡眠儀體驗

和自然之聲，幫助人們更好地入睡，提高睡眠質量。而N930X指定曲目播放MP3音樂芯片，就是這款睡眠儀的核心部件。芯片簡介N930X是一個提供串口的MP3芯片，完美的集

發(fā)表于 12-11 14:25 ?332次閱讀

魅族E2 MP3使用手冊（說明書）

魅族 E2 MP3 操作使用手冊（說明書）

發(fā)表于 11-12 13:41 ?0次下載

請問TLV320DAC3120可以用作MP3的解壓芯片嗎？

TLV320DAC3120項目要求用喇叭播MP3音頻，我選用的方案是MCU+TLV320DAC3120，計劃按以下步驟進行： 1. MCU通過I2C來配置TLV320DAC3120 2. MCU

發(fā)表于 11-06 06:26

能在DSP的存儲器上存MP3或其他格式的音頻文件，由DSP讀后控制TLV320AIC23轉換成語音？

我想用TLV320AIC23和DSP做一個音頻系統(tǒng)。我想問一下能在DSP的存儲器上存MP3或其他格式的音頻文件，由DSP讀后控制TLV320AIC23轉換成語音？有沒有好的方案推薦謝謝！

發(fā)表于 11-01 06:45

請問如何把WAV,MP3格式的音頻文件轉化為16位的數(shù)據(jù)IIS格式？

你好，請問如何把WAV,MP3格式的音頻文件轉化為16位的數(shù)據(jù)IIS格式？

發(fā)表于 10-23 07:24

九芯電子電子琴語音芯片的無限可能——N930X-S16 MP3解碼芯片

播放，是置入了音樂芯片，目前流行的高性價比語音芯片N930X音樂芯片；此款芯片是一個提供串口的MP3芯片，完美地集成了MP3、WMV的硬解碼芯片，在音頻壓縮方面有著

發(fā)表于 10-13 08:01 ?591次閱讀

N9305 MP3語音芯片：外掛FLASH自定義語音播放解決方案

隨著科技的飛速發(fā)展，語音芯片作為電子產(chǎn)品中的重要組成部分，不斷引入新的特性和功能以滿足市場需求。其中，N9305系列MP3語音芯片支持外掛Flash、U盤、USB下載的功能成為語音芯片領域的一大亮點

發(fā)表于 10-11 08:01 ?613次閱讀

使用example中的pwm播放mp3，在mp3_music_read_cb中使用fread讀取，會出現(xiàn)fread讀取異常怎么解決？

使用example中的pwm播放mp3，默認是沒問題。然后想把mp3放到spiffs中，然后從spiffs中調用，碰到問題： 1：如果在mp3_music_read_cb中使用fread讀取，最終

發(fā)表于 06-28 07:37

ESP32-PICO-V3-02實現(xiàn)MP3播放遇到的幾個疑問求解

我之前做過一套Atmega328P+YX6300+W25Q128（PSRAM）+PAM8302實現(xiàn)MP3播放器。出于空間與接口的考慮，想利用ESP32實現(xiàn)該功能。由于想利用PICO內部的存儲用于

發(fā)表于 06-28 06:47

SONY MP3不刷系統(tǒng)漢化界面

SONY部分MP3播放器不用重新刷系統(tǒng)，目前試驗過：X1050系列、A35等，香水瓶、魚雷系列不能用的。附件中的文件用電腦操作一下，就可以漢化的，收音也可以改為國內頻率的。具體操作見附件。

發(fā)表于 06-19 14:14 ?26次下載

N9300-S16音樂MP3芯片：電子琴的革命性突破

在數(shù)字音樂技術的浪潮中，N9300-S16音樂MP3芯片以其卓越的性能和廣泛的應用領域，成為了電子琴領域的一次革命性突破。那么，N9300-S16究竟是何方神圣？它的優(yōu)勢又在哪里？它在電子琴上又能

發(fā)表于 05-09 08:06 ?958次閱讀

OSC開源社區(qū)
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 什么是數(shù)據(jù)脫敏？常用的脫敏規(guī)則有哪些呢？
Hot 12款開源的低代碼開發(fā)平臺

New 使用Prometheus與Grafana實現(xiàn)MindIE服務可視化監(jiān)控功能
New 基于MindSpeed MM玩轉Qwen2.5VL多模態(tài)理解模型

精選推薦
更多

文章

資料

帖子

邊緣AI MPU深度盤點：品牌、型號與技術特性全解析

eeDesigner
4天前

910 閱讀

晶圓揀選測試的具體過程和核心要點

中科院半導體所
4天前

3323 閱讀

基于瑞薩電子RA8D1 MCU的USB和I2S數(shù)字音頻應用解決方案

瑞薩MCU小百科
4天前

780 閱讀

RZT2H CR52雙核BOOT流程和例程代碼分析

RA生態(tài)工作室
1月前

1223 閱讀

使用e2studio軟件新建瑞薩RA系列MCU工程

瑞薩MCU小百科
4天前

682 閱讀

電氣原理圖設計原則

catdown
138 KB

免費

0下載

Node-RED可視化物聯(lián)網(wǎng)編排工具

jsqueh
6.82 MB

2積分

5下載

Mongoaudit審計與測試工具

王杰
0.22 MB

免費

0下載

pangu.js中英文間插入空格插件

雅博電子科技
2.65 MB

免費

0下載

SwinIR圖片修復工具

王利祥
29.91 MB

2積分

2下載

在給SU-03T語音模塊燒錄時為什么燒錄不進去？

jf_98733911
1天前

1075 閱讀

【RA-Eco-RA4M2開發(fā)板評測】RA4M2 + ESP8266獲取城市天氣預報（二）使用串口助手獲取天氣+破解任意類型AT指令

jf_43382582
1天前

781 閱讀

【RA-Eco-RA4M2開發(fā)板評測】RA-Eco-RA4M2 溫濕度傳感器HS3003

ouxiaolong
2天前

689 閱讀

【RA-Eco-RA4M2開發(fā)板評測】3、串口藍牙模塊實現(xiàn)電壓信息在手機顯示

jf_01200635
3天前

1081 閱讀

【RA-Eco-RA4M2開發(fā)板評測】RA4M2 + ESP8266獲取城市天氣預報（一）

jf_43382582
3天前

1332 閱讀

推薦專欄
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

比MP3小10倍，Meta公開全新音頻壓縮技術

評論

KT142C語音芯片支持的語音文件格式什么？Mp3還是wav呢？

學習機MP3語音芯片方案：WMV硬解碼芯片，N9301-316

KT148A語音芯片一個mp3語音，有辦法分成一段一段的嗎

N930X指定曲目播放MP3音樂芯片：提升睡眠儀體驗

N930X指定曲目播放MP3音樂芯片：提升睡眠儀體驗

魅族E2 MP3使用手冊（說明書）

請問TLV320DAC3120可以用作MP3的解壓芯片嗎？

能在DSP的存儲器上存MP3或其他格式的音頻文件，由DSP讀后控制TLV320AIC23轉換成語音？

請問如何把WAV,MP3格式的音頻文件轉化為16位的數(shù)據(jù)IIS格式？

九芯電子電子琴語音芯片的無限可能——N930X-S16 MP3解碼芯片

N9305 MP3語音芯片：外掛FLASH自定義語音播放解決方案

使用example中的pwm播放mp3，在mp3_music_read_cb中使用fread讀取，會出現(xiàn)fread讀取異常怎么解決？

ESP32-PICO-V3-02實現(xiàn)MP3播放遇到的幾個疑問求解

SONY MP3不刷系統(tǒng)漢化界面

N9300-S16音樂MP3芯片：電子琴的革命性突破