在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

妥妥媲美真人!火山語音發布超自然對話語音合成技術

話說科技 ? 來源:話說科技 ? 作者:話說科技 ? 2022-09-16 10:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近期,網上就出現了這樣一段由兩位女聲組合而成的音頻片段。在音頻中,兩位女生追憶了自己當年第一次聽到周杰倫的心情,還對周董的音樂風格進行了解讀,兩人一問一答,時長長達近3分鐘。

可是,當大家聽著這段音頻節目,也沉浸在對那時青蔥歲月的美好追憶時,你可曾想到,這段對話,竟然是語音合成的!

提到“語音合成”,你腦海中可能會出現這樣的種種:

·導航中種類豐富但語氣機械的“前方路口左轉”

·接電話時,對面笨拙無感情的“您好,這里是xx信用卡中心

·視頻網站上,十個解說視頻九個聲音相同,看到就想趕快劃走的“注意看,這個男人叫小帥”…...

而如今,語音合成技術竟然已經能達到“天衣無縫”的完美自然效果,就好像真人在對話一樣,直接顛覆了許多人的刻板印象。而這段音頻的發布者火山語音,字節跳動 AI Lab Speech & Audio 智能語音與音頻團隊,為了更好地向大眾解密里面的技術亮點,又提供了兩段音頻——一段,是傳統的語音合成技術效果,另一段,卻來自火山語音的全新技術。兩段音頻輸入的文本完全相同—— “南方菜系偏愛蘸料,例如我第一次去上海才知道燒烤里的蔬菜也需要配蘸料” ,但聽上去,合成的音頻效果卻有明顯差異,第二段來源于火山語音團隊的音頻,用上了本次上新的超自然對話語音合成技術,格外自然,幾乎與真人無異。

回想一下人在日常表達時的狀態,大腦處理信息是需要思考時間的。體現到語言上,人就會不由自主的出現一些猶豫、拖音、倒裝,甚至是說了一半改口、結巴重復的情況,也會刻意加重讀音強調想表達的重點信息。這就帶來了大量難以觀測的細微表達。這些現象在傳統的TTS中難以被捕捉還原。而這些細微之處的完美復現正是讓聲音真假難辨的奧妙之源,也是上述音頻的奧秘所在。

具體來說,火山語音團隊最新發布的超自然對話語音合成技術相較傳統TTS更加真實自然,即語氣詞、吸氣聲、猶豫時的停頓以及字音拖長等細節統統被完美復現,而且只需常規音庫1/4數據,就可完美還原真人說話細微的韻律特點、發音口癖,讓合成效果更加真實。有專業評測結果顯示,火山語音的這項新技術與真人錄音對比基本沒有差距,難以被評測者分辨出來。此外這項技術目前已在視頻配音、電話客服等多個場景投入應用,近日即將上線火山引擎語音技術官網對外露出。

這么厲害的技術,究竟是怎么辦到的?

據介紹,上述這些在實際交流中經常出現的倒吸氣、吞音、思考時不由自主的拖長字音、低笑等表現被稱為副語言現象(paralanguage),盡管這是人腦思考、表達過程中最真實的表現,但由于傳統的語音合成技術框架無法對分布稀疏的副語言現象進行有效建模,所以在說話時的韻律還原度表現有限、過于“正確”。

基于上述難點,火山語音超自然語音合成技術分別從文本和語音建模兩個層面進行突破,具體來說:

·在文本層面,火山語音采用了生成式的風格遷移模型,模仿真人說話的方式對文本進行可控的口語化轉寫,讓文本更好地擁抱口語化,避免最終效果太過書面。

·在語音層面,團隊則是通過文本分析模型的突破,在TTS的輸入側額外增加了副語言預測,模仿真人的發音特點來實現自然自發的語音效果。

值得一提的是,團隊通過使用無監督特征的TTS建模方案,有效提高了模型的穩定性與表現力,僅僅使用常規音庫1/4的數據規模,就可以實現十分自然多變的韻律效果,很贊吧?

article-body

致力文本口語化 讓“擬真人表達”躍然紙上

文本作為語音合成技術的輸入,其風格是否貼近真人的表達方式,是合成效果提升的第一步;但受限于根深蒂固的書寫用語習慣,大多數合成前的文本并不夠自然,或者需要投入大量精力不斷調整,費時費力。為了解決此類問題,火山語音團隊采用了兩階段方案并取得了不錯的效果:

·階段一:采用自監督方法,使用偽數據對口語化模型進行預訓練,降低了數據量的需求;同時在模型中引入了指針網絡結構,增強了文本可控性。

·階段二:利用少量優質的人工標注數據,對預訓練好的口語化模型進行微調,最終實現可控的、自然的口語化文本效果。

article-body

為了更好地還原真人,區別于傳統的語音合成技術,火山語音在副語言建模和韻律多樣性上也分別進行了深入研究。在副語言建模方面,團隊推出的合成技術實現了聲學模型對自然表達中出現的吸氣、笑聲、猶豫、修正等多種副語言現象建模,并且結合文本的語義信息自動插入副語言現象。在插入過程中同時考慮合理性與隨機性,表現更加自然真實。

副語言建模+韻律多樣性可圈可點 語音真實感全面升級

“在韻律多樣化的探究中,我們結合無監督表征學習技術,自主研發了高表現力的聲學模型框架,通過發音、韻律、音色解耦等方式,不但降低了數據量的需求,實現對出現頻率極低發音現象的高效建模;同時使用無監督表征特征并結合音素級別的基頻、能量信息等,實現了韻律的自然多變,促成高質量對話語音生成。”火山語音團隊總結道。

article-body

火山語音,字節跳動AI Lab Speech&Audio智能語音與音頻團隊,長期以來面向抖音、剪映、番茄小說、飛書等業務提供領先的AI語音技術能力及全棧語音產品解決方案,并通過火山引擎向外部企業開放技術服務。(作者:張揚)

審核編輯 黃昊宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    明遠智睿SSD2351開發板:語音機器人領域的變革力量

    ,提高語音識別的準確率;同時也可連接高質量的揚聲器,確保語音合成后的聲音清晰、自然。TF卡接口能夠存儲大量的語音數據、
    發表于 05-28 11:36

    大模型時代的新燃料:大規模擬真多風格語音合成數據集

    大模型充分學習到語音的發音規律、語義特征、語境等信息,從而提升語音識別、語音合成等關鍵能力,提供更加準確、自然、智能的
    的頭像 發表于 04-30 16:17 ?234次閱讀

    智能收銀語音交互新標桿—WT3000T8語音合成芯片TTS技術應用解析

    一、行業應用背景在零售業態智能化轉型的浪潮中,收銀設備正經歷從功能型向服務型轉變的關鍵階段。WT3000T8語音合成芯片應運而生,專為滿足新零售場景下智能收銀終端的語音交互需求而設計。該芯片通過創新
    的頭像 發表于 04-24 08:45 ?203次閱讀
    智能收銀<b class='flag-5'>語音</b>交互新標桿—WT3000T8<b class='flag-5'>語音</b><b class='flag-5'>合成</b>芯片TTS<b class='flag-5'>技術</b>應用解析

    話語音配線架怎么接線

    話語音配線架的接線方法主要根據線纜類型、配線架規格及具體應用場景選擇直接連接、跳線連接等方式,并需遵循色譜線序規范進行打線操作。以下為具體步驟: 一、接線前的準備工作 工具與材料準備 工具:剝線鉗
    的頭像 發表于 04-10 10:36 ?595次閱讀

    【CW32模塊使用】語音合成播報模塊

    SYN6288E 中文語音合成芯片是北京宇音天下科技有限公司在 2010 年初推出的一款性/價比更高的 SYN6288 芯片的基礎上更改封裝方式的,效果更自然的一款中高端語音
    的頭像 發表于 03-29 17:25 ?595次閱讀
    【CW32模塊使用】<b class='flag-5'>語音</b><b class='flag-5'>合成</b>播報模塊

    芯資訊|WT3000T8語音合成芯片:高性價比語音交互解決方案

    在智能終端設備快速普及的當下,語音交互已成為提升用戶體驗的關鍵功能。廣州唯創電子推出的WT3000T8語音合成芯片,憑借其卓越的語音處理能力、靈活的控制模式及超低功耗設計,成為工業控制
    的頭像 發表于 03-24 09:05 ?339次閱讀
    芯資訊|WT3000T8<b class='flag-5'>語音</b><b class='flag-5'>合成</b>芯片:高性價比<b class='flag-5'>語音</b>交互解決方案

    聆思CSK6大模型語音開發板接入DeepSeek資料匯總(包含深度求索/火山引擎/硅基流動華為昇騰滿血版)

    調用DeepSeek節點,最終將大模型輸出的結果進行語音合成實現端側播報 下載工程模板導入,配置參數后綁定開發板ID即可。 關鍵參數說明(以火山引擎版為例): HOST
    發表于 03-06 17:02

    基于W2605C語音識別合成芯片的智能語音交互鬧鐘方案-AI對話享受智能生活

    隨著科技的飛速發展,智能家居產品正逐步滲透到我們的日常生活中,其中智能鬧鐘作為時間管理的得力助手,也在不斷進化。基于W2605C語音識別與語音合成芯片的智能語音交互鬧鐘,憑借其強大的聯
    的頭像 發表于 12-31 11:54 ?781次閱讀

    基于智能語音交互的智能呼叫中心工作機制

    作為實現智能呼叫中心的關鍵技術之一的智能語音交互技術,它通過集成自然語言處理(NLP)、語音識別(ASR)和
    的頭像 發表于 12-03 16:44 ?671次閱讀
    基于智能<b class='flag-5'>語音</b>交互的智能呼叫中心工作機制

    語音識別與自然語言處理的關系

    在人工智能的快速發展中,語音識別和自然語言處理(NLP)成為了兩個重要的技術支柱。語音識別技術使得機器能夠理解人類的
    的頭像 發表于 11-26 09:21 ?1418次閱讀

    九芯語音合成芯片NVH-FLASH,看這一篇足矣!

    前言什么是語音合成芯片:簡而言之,就是將文字信息轉化為語音信號輸出的電子器件。它能夠將存儲或接收到的文字內容,通過內部復雜的算法處理,轉換成自然流暢的
    的頭像 發表于 11-21 01:01 ?583次閱讀
    九芯<b class='flag-5'>語音</b><b class='flag-5'>合成</b>芯片NVH-FLASH,看這一篇足矣!

    OpenAI發布ChatGPT高級語音版,付費訂閱并設對話時長限制

    ChatGPT已邁入語音交互的新紀元,為付費用戶解鎖了高級語音功能,旨在讓對話體驗更加自然流暢。OpenAI在本周二宣布了這一消息,標志著其持續推動
    的頭像 發表于 09-27 15:34 ?3020次閱讀

    字節跳動豆包大模型已支持實時語音通話

    字節跳動火山引擎今日隆重推出創新對話式AI實時交互解決方案,該方案以火山方舟大模型服務平臺為核心,全面升級語音交互體驗。該方案深度融合火山
    的頭像 發表于 08-12 16:13 ?1143次閱讀

    OpenAI提前解鎖GPT-4o語音模式,引領對話新紀元

    OpenAI近日宣布了一項令人振奮的消息:即日起,部分ChatGPT Plus用戶將率先體驗到GPT-4o的語音模式,這一創新功能標志著自然語言處理與人工智能交互技術邁出了重要一步。GPT-4o的高級
    的頭像 發表于 08-01 18:24 ?1472次閱讀

    語音識別和自然語言處理的區別和聯系

    語音識別和自然語言處理是人工智能領域的兩個重要分支,它們在很多方面有著緊密的聯系,同時也存在一些明顯的區別。本文將詳細介紹語音識別和自然語言處理的區別和聯系。 一、
    的頭像 發表于 07-05 10:09 ?2866次閱讀
    主站蜘蛛池模板: 久久精品国产免费 | 狠狠干2015 | 五月婷花 | 欧美婷婷综合 | 永久在线观看www免费视频 | 又大又粗又爽黄毛片 | 爱爱毛片 | 婷婷激情亚洲 | 黄色污网站在线观看 | 最好看最新的中文字幕1 | 免费看又爽又黄禁片视频1000 | 天天干天天添 | 色综合久久久高清综合久久久 | 三级视频中文字幕 | 天天操操操操操操 | 台湾黄色毛片 | 欧美国产在线一区 | 日本精品一在线观看视频 | 国产精品一区在线观看你懂的 | 911精品国产91久久久久 | 色香影视 | 91久久婷婷国产综合精品青草 | 色视频免费版高清在线观看 | 国产农村妇女毛片精品久久 | 天堂资源在线官网bt | 88av视频在线 | 一区二区中文字幕 | 老师下面好紧 | 欧美性free免费 | 亚洲天天| 国产一区二区在线视频播放 | 一区二区在线免费视频 | 欧美黄色成人 | 午夜影院亚洲 | 国产一级又色又爽又黄大片 | 日韩欧美中文在线 | 高清人人天天夜夜曰狠狠狠狠 | 国产在线精品观看 | 亚洲第一区精品日韩在线播放 | 国产精品欧美一区二区三区不卡 | 九九精品免费观看在线 |