大家應(yīng)該都知道聲音克隆技術(shù),通俗的來說就是借助深度學(xué)習(xí)算法,可以完全模擬某個(gè)人的聲音,而且由機(jī)器合成的語音連情緒都能夠完美表達(dá)出來,基本可以以假亂真,只要不見面,你根本就察覺不出來向你發(fā)出聲音的知識(shí)一個(gè)機(jī)器。
語音克隆最大的創(chuàng)新之一是減少創(chuàng)建語音所需的原始數(shù)據(jù)量。過去,該系統(tǒng)需要數(shù)十甚至數(shù)百小時(shí)的音頻。但是,今天猿妹要和大家分享的這個(gè)工具5秒鐘就可以克隆成功,這個(gè)工具名叫——MockingBird。
MockingBird已經(jīng)登上Github熱榜,收獲3.5K的Star,累計(jì)分支 303(Github地址:https://github.com/babysor/MockingBird)
MockingBird具有如下特性:
支持普通話并使用多種中文數(shù)據(jù)集進(jìn)行測(cè)試
適用于 pytorch,已在 1.9.0 版本(最新于 2021 年 8 月)中測(cè)試,GPU Tesla T4 和 GTX 2060
支持 Windows + Linux
僅使用新訓(xùn)練的合成器(synthesizer)就有良好效果,復(fù)用預(yù)訓(xùn)練的編碼器/聲碼器
MockingBird如何使用
MockingBird的安裝要求如下:
首先,MockingBird需要Python 3.7 或更高版本
安裝 PyTorch
安裝 ffmpeg。
運(yùn)行pip install -r requirements.txt 來安裝剩余的必要包。
安裝 webrtcvad 用 pip install webrtcvad-wheels。
接著,你需要使用數(shù)據(jù)集訓(xùn)練合成器:
下載 數(shù)據(jù)集并解壓:確保您可以訪問 train 文件夾中的所有音頻文件(如.wav)
使用音頻和梅爾頻譜圖進(jìn)行預(yù)處理:python synthesizer_preprocess_audio.py 《datasets_root》 可以傳入?yún)?shù) --dataset {dataset} 支持 adatatang_200zh, magicdata, aishell3
預(yù)處理嵌入:python synthesizer_preprocess_embeds.py 《datasets_root》/SV2TTS/synthesizer
訓(xùn)練合成器:python synthesizer_train.py mandarin 《datasets_root》/SV2TTS/synthesizer
當(dāng)你在訓(xùn)練文件夾 synthesizer/saved_models/ 中看到注意線顯示和損失滿足您的需要時(shí),請(qǐng)轉(zhuǎn)到下一步。
使用預(yù)先訓(xùn)練好的合成器,如果沒有設(shè)備或者不想慢慢調(diào)試,可以使用網(wǎng)友貢獻(xiàn)的模型。
訓(xùn)練聲碼器
預(yù)處理數(shù)據(jù): python vocoder_preprocess.py 《datasets_root》
訓(xùn)練聲碼器: python vocoder_train.py mandarin 《datasets_root》
啟動(dòng)工具箱
然后你可以嘗試使用工具箱:python demo_toolbox.py -d 《datasets_root》
責(zé)任編輯:haq
-
開源
+關(guān)注
關(guān)注
3文章
3688瀏覽量
43829 -
克隆
+關(guān)注
關(guān)注
0文章
22瀏覽量
7927 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5561瀏覽量
122794
原文標(biāo)題:5秒內(nèi)克隆你的聲音,并生成任何內(nèi)容,這個(gè)工具細(xì)思極恐...還特么的開源~
文章出處:【微信號(hào):AndroidPush,微信公眾號(hào):Android編程精選】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
正點(diǎn)原子 AI BOX0 智能伴侶,1.54寸高清屏+長效續(xù)航,語音暢聊,情景對(duì)話,知識(shí)科普,多色可選,隨身攜帶!
SDK如何控制DLP4500在一秒內(nèi)投影60張圖片?
軍事應(yīng)用中深度學(xué)習(xí)的挑戰(zhàn)與機(jī)遇
BP神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)的關(guān)系
NPU與機(jī)器學(xué)習(xí)算法的關(guān)系
NPU在深度學(xué)習(xí)中的應(yīng)用
一種基于深度學(xué)習(xí)的二維拉曼光譜算法

GPU深度學(xué)習(xí)應(yīng)用案例
FPGA加速深度學(xué)習(xí)模型的案例
AI大模型與深度學(xué)習(xí)的關(guān)系
用TPA3112設(shè)計(jì)的一個(gè)音頻功放電路,上電1-3秒后就沒有聲音輸出了,怎么解決?
FPGA做深度學(xué)習(xí)能走多遠(yuǎn)?
深度識(shí)別算法包括哪些內(nèi)容
基于大數(shù)據(jù)與深度學(xué)習(xí)的穿戴式運(yùn)動(dòng)心率算法

評(píng)論