在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

那段記憶中的聲音:單式評書再現江湖背后的AI技術

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2021-09-20 19:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

“聽眾朋友們,你們好。從今兒個,由我為大家播講懸疑小說,《江湖消亡史:北平暗夜》。這個故事發生在民國十幾年的北京城里……”情感充沛的評書腔調,蒼勁沙啞的嗓音,單田芳大師的“聲音”再次響起,熱愛評書的朋友一聽恍若隔世,已故的單老評書怎么突然回來了?

三年前,無數人感慨世上再無“下回分解”,網友們的呼喚被聽見了,為致敬單老,也為給遍布大江南北的書迷朋友們一個驚喜,喜馬拉雅運用AI技術讓“書接上回”重現江湖。

b2b7740adf3d4a78ba81bc2bec755073?from=pc

耳熟能詳單老的“下回分解”故事重新回歸,這段記憶中的聲音背后,是來自于喜馬拉雅的語音合成(TTS: Text-to-speech)技術,即將文字轉化為聲音,喜馬拉雅的技術團隊還將單田芳先生的AI合成音應用于六部風格各異的書籍,用單式評書腔調,全新演繹聽眾耳熟能詳的經典之作。

語音AI讓單老聲音重煥新生

不熟悉評書的朋友們可能不知道單老的魅力。在北方的出租車上,遇到司機在播放單老的評書概率還是蠻高的,而在喜馬拉雅的評書類目中,單老的專輯評書節目長期在熱播榜前列。例如,《亂世梟雄》在喜馬拉雅的播放量近24億,《白眉大俠》播放量近20億。在民間也有個說法:“凡有井水處,皆聽單田芳。”喜愛他的書迷遍布大江南北,故事中的魅力經過單老情感充沛的演繹極富有味道。

6a0ab44219f24454bf240d023ade3ef1?from=pc

打開喜馬拉雅,在《單田芳聲音 AI 重現系列》專輯中,既有直擊淚點、奇人異事道盡人生悲歡的武俠小說——趙晨光的《江湖消亡史:北平暗夜》,也有傳達時代脈動的紀實文學——陳廷一的《毛氏三兄弟:三兄弟與共和國奠基》,還有時下流行、故事情節曲折奇特的推理小說——紫金陳的《無證之罪》,更有延續單老生前未完成的評書經典——宮白羽的《十二金錢鏢》……

這些經典之作讓評書愛好者像過年一般。大家想念單式評書中的故事與人生,人物的百轉千回與俠義灑脫。單老的聲音與跌宕起伏的故事加起來就等于完美,讓人立馬沉浸在故事的世界中。很多書評愛好者都留言表示:怎么沒有早點用AI技術啊,讓人癡癡等了好幾年。幸運的是,有人在為傳統藝術默默出力,完美復現單老聲音的背后,是來自于喜馬拉雅智能語音實驗室團隊的AI技術。

據喜馬拉雅智能語音實驗室盧恒博士的介紹,喜馬拉雅智能語音實驗室運用TTS 技術,融入團隊自主設計的韻律提取模塊以及專門的口音模塊,才得以實現原汁原味的單老獨特聲線。

TTS技術早已在喜馬拉雅電子書、新聞等領域實現了廣泛的應用,能夠高效地將新聞、書籍和文章中的大量文字信息轉為音頻,大幅提升了音頻的生產效率。但是主流的TTS 框架模型是對音頻內容直接進行提取和合成,最終成型的內容效果整體上來說人的那部分情感和情緒都顯得很寡淡。而在評書這個場景中,韻律的起伏非常大,正是因為韻律的變化才使得評書引人入勝,平淡的情緒和腔調帶來的后果就非常致命了,而這也是TTS技術中的難點。

喜馬拉雅智能語音實驗室自主設計的韻律提取模塊,無論單田芳先生評書中的韻律多么豐富和多變,都能提取并完全復刻出來,這才讓單老的AI合成音仿佛本尊再現。

另外,評書中有很多特殊口音,比如口語化的評書中,“這個”中的“這”字,普通話發音“zhè”,但在評書中通常讀為“zhèi”,跟普通話的發音有很大的區別。為此,喜馬拉雅團隊專門做了特殊重音和停頓的標注,才使單老AI合成音能夠還原出老味道。

除了高度還原單老的聲音外,在新的專輯中,也加入了高級音效設計師的配樂與音效,讓聽眾通過耳朵就能獲得身臨其境的沉浸式體驗,評書中的世界立馬變得立體和生動起來。

通過這些彎彎折折,單式評書才得以重見天日。

天生相互吸引:內容與AI語音技術的邂逅

我們聽到的原汁原味的單老“聲音”,其完美復現并非偶然,而這也只是喜馬拉雅TTS技術的冰山一角。喜馬拉雅已在智能語音技術上深耕多年,尤其是在TTS領域方面潛心鉆研多年。

目前TTS在業界的發展十分迅速,國內布局TTS賽道的有一線大廠,比如阿里擁有的語音合成技術KAN-TTS,騰訊云在語音合成方面也有技術研發。國外像DeepMind創建的語音合成器WaveNet,讓語音合成的音質有了大幅的提升。2016年,谷歌DeepMind推出了用于生成原始音頻波形的深層神經網絡模型—“WaveNet”,并在一年多的時間內將原始模型的效率提高了1000倍,而在一組美式英語的人類聽眾測試中,WaveNet的得分超過了真實人類語音。

喜馬拉雅語音技術團隊也已經研發出自己的聲碼器“PhaseGAN”,這種基于生成對抗網絡的聲碼器甚至有著比WaveNet 更高的生產效率。

587bdc810f534773b0411cc83e6f293c?from=pc

喜馬拉雅TTS技術的核心,就在于如何讓機器的聲音聽上去韻律自然、情感充沛。說白了,就是如何在機器聲音中注入人性。拿有聲小說這個場景來說,用TTS音色演繹有聲小說需要學習小說中的抑揚頓挫、情感表達、上下文關系,區分旁白和對白等,將作品像真人一般呈現出來很困難。

而喜馬拉雅的TTS模型系統有著獨特的基因優勢:

1.內容數據豐富,區別于一線廠商的數據來源,喜馬拉雅在音頻賽道多年耕耘,已積累海量的內容,包含大量的有聲書內容與眾多的主播,基于這些龐大的語音素材庫,喜馬拉雅有強勁的模型迭代語料和更大的發揮空間。

2.數據是模型迭代的燃料基礎,在此之上,喜馬拉雅也有厚重的研發實力。在語音合成、語音識別、智能音效、語音編解碼、語音信號處理和虛擬主播等技術上,喜馬拉雅都進行了深度研發,自研的TTS前端文本處理分析模塊,可高精度、全自動地對文本進行多音字識別、韻律預測和風格分類,可以演繹不同情緒文字,還能自動區分旁白、對白,并支持英文,豐富了TTS能表達的情感和韻律。

3.專利效能,現下喜馬拉雅已申請了三項TTS語音合成相關專利,一是在沒有任何英文原始數據的TTS聲音就能夠實現說英文的技術框架,讓不會說英文的人也能流利地講英文。另外,喜馬拉雅還采用并行解碼器,生成語音合成序列,改進了語音合成后端模型的結構和效率。

我們可以發現TTS技術的獨特優勢可以豐富內容的生產迭代,不僅將提高內容生產效率,也讓更多不同內容的生產成為可能。在喜馬拉雅當下主要的PGC、UGC、PUGC三大內容生產模式之外,AI語音技術的更新迭代讓第四種新內容生產模式——AIGC成為可能,并展現出更大的想象空間。

喜馬拉雅的內容生態經過多年的積累、更新,內容精良并且IP豐富。豐富的IP與技術的結合將可能碰撞出更加多元的火花,讓聽眾聽到以往所難以甚至不可能聽到的內容。把腦洞開得大一些,在AI語音的賦能下,未來我們是否可能聽到各種內容IP和不同聲音IP的組合?比如,孫儷“聲音”演播的《甄嬛傳》,孫紅雷“聲音”演播的《掃黑風暴》,甚至,張藝興版的評書,易烊千璽版的童話故事等內容。這些逼真自然的聲音和不同內容相結合,在各類題材和頻道中出現,將會給聽眾帶來很多驚喜。只有你想不到,沒有AI做不到。

技術與內容的雙向賦能如同兩個嚙合完美的齒輪一般,驅動著喜馬拉雅內容和產品的更新迭代。從數據上來看,用戶用腳投票,喜馬拉雅的月活跑在了行業前列。據喜馬拉雅招股書內容顯示,截至上半年,移動端總收聽時長和在線音頻總收入來看,喜馬拉雅是中國最大在線音頻平臺,平均MAU達2.62億,其中包括1.1億移動端用戶和1.51億的物聯網及其他開放平臺的用戶。移動端用戶共花費8478億分鐘收聽喜馬拉雅音頻內容,占中國在線音頻總收聽時長的70.9%。

在雙飛輪驅動的模式下,喜馬拉雅內容和技術都在向前向深飛馳,給我們用戶帶來了更加豐富的內容與體驗。剖析音頻行業這個并不為大眾熟知的賽道,可以透視到是什么決定了機器如何說話,決定了用戶耳朵的體驗與舒適度,也可以看到頭部的企業帶來了哪些經驗,如何撬開智能語音的富礦。

“聲”寫未來

給大家一個數據感受下音頻市場的增長勢態。據悉,2020年中國在線音頻用戶數量已經有6.4億人,其中超六成用戶表示曾經購買過在線音頻服務,預計2022年將達到6.9億人。沒想到吧,大家的付費意愿竟然這么強勢。平時勤儉節約的大家,在豐富精神世界方面,卻舍得愿意為大腦和心靈投資。

在音頻市場的快速增長下,圍繞“耳朵經濟”的競爭日趨激烈,除喜馬拉雅、荔枝、蜻蜓FM等老牌平臺之外,騰訊、字節跳動等互聯網巨頭以及中央廣播電視總臺這樣的“國家隊”也紛紛進入這一賽道。各大平臺內容類型的豐裕程度與是否具有差異化的優質內容是吸引用戶以及撬動用戶付費的關鍵。

c7344389958c4ebeb0b2fc09d59d9ae2?from=pc

可以預見的是,在語音技術加成下,TTS技術制作的高效高質音頻內容會進一步賦能優質內容的生產,喜馬拉雅的內容生態“PGC、UGC、PUGC”也將因為新成員AIGC的加入,在內容創造方面,帶給用戶更多的聽覺盛宴。

喜馬拉雅的AI技術與內容互相磁吸,螺旋纏繞不斷向前向深發展, AI技術為喜馬拉雅的內容生態加碼,而內容反哺技術不斷精進。技術與內容的全面融合也撬開了未來的智能語音合成市場富礦:

1.對傳統文化的傳承,豐富和傳承評書這類非物質文化遺產,影響越來越多的傳統文化愛好者和青年演員去參與其中,創造更豐富的文化遺產。

2.對平臺的創作者來說,提升效率和內容的質量,讓創作者不再陷入音頻制作的重復性工作中,在多種內容的制作方面TTS都可以賦能創作者的轉型升級。

3.AI技術及大數據分析能力讓內容創作、分發和運營更加精準化,隨著音頻內容逐漸規模化,以及技術的迭代更新,AI對于內容的全生命流程參與程度也越來越高,從而讓音頻內容呈現更豐富更智能化的趨勢。

移動互聯網的快速發展下,有聲讀物成為我們隨身攜帶的“避難所”。在這些聲音里面,我們療愈自己,經歷他人的跌宕生活,感受故事中的喜怒哀樂和人生百態。無論是內容的量與質,還是技術的深度研發,喜馬拉雅牽引著行業不斷進步,激發更多的廠商去深耕音頻行業,迭代創新能力。而這也意味著,我們這些喜愛有聲讀物的用戶會擁有更豐富的眼界與精神世界。

聲音不僅僅只是一個簡單的溝通工具,里面包含了豐富的知識智慧、故事情感,它讓流淌的時間更有意義,讓我們的精神生活更加豐盛。而技術正不斷豐富著聲音的世界,為我們的耳朵帶給我們越來越多元、豐富的體驗。

fqj

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 音頻
    +關注

    關注

    29

    文章

    3030

    瀏覽量

    83239
  • ai技術
    +關注

    關注

    1

    文章

    1308

    瀏覽量

    25079
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AI算力新基建背后的中國芯力量——微愛芯服務器芯片國產化替代全景解讀

    人工智能(AI技術正以顛覆性力量重塑全球產業圖景,從深度學習的復雜模型訓練到生成AI的實時推理,其背后是海量數據與指數級增長的算力需求。
    的頭像 發表于 06-20 13:55 ?487次閱讀
    <b class='flag-5'>AI</b>算力新基建<b class='flag-5'>背后</b>的中國芯力量——<b class='flag-5'>中</b>微愛芯服務器芯片國產化替代全景解讀

    【「零基礎開發AI Agent」閱讀體驗】+ 入門篇學習

    很高興又有機會學習ai技術,這次試讀的是「零基礎開發AI Agent」,作者葉濤、管鍇、張心雨。 大模型的普及是近三年來的一件大事,萬物皆可大模型已成為趨勢。作為大模型開發應用重要組
    發表于 05-02 09:26

    【「零基礎開發AI Agent」閱讀體驗】+初品Agent

    期待的《零基礎開發AI Agent——手把手教你用扣子做智能體》終于寄到了,該書由葉濤、 管鍇、張心雨完成,并由電子工業出版社出版發行。 全書分為三個部分,即入門篇、工具篇及實踐篇。由此可見這是
    發表于 04-22 11:51

    HZHY-AI100G-技術規格

    電子發燒友網站提供《HZHY-AI100G-技術規格頁.pdf》資料免費下載
    發表于 04-17 16:59 ?1次下載

    Banana Pi 發布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 計算與嵌入開發

    助力 AI、智能制造和物聯網行業的發展。未來,Banana Pi 將繼續深化與Renesas的技術合作,推動更多高性能嵌入解決方案的落地。 ” BPI-AI2N開發板賦能多場景應用,
    發表于 03-19 17:54

    AI Agent 應用與項目實戰》閱讀心得2——客服機器人、AutoGen框架 、生成代理

    行適應性學習。生成代理的技術實現為AI系統帶來了新的發展方向。項目中的記憶架構設計特別值得關注,它不僅解決了傳統AI系統
    發表于 02-25 21:59

    行業集結:共同定制 RK3566 集成 AI 眼鏡的前沿 AR 方案

    技術革新浪潮席卷全球的當下,一款智能視覺終端設備 —— 以 AI 眼鏡為典型代表,正以革命性姿態打破物理與數字世界的藩籬,在虛實交融的界面搭建起多維度的認知通道。 而深圳市新創云智能科技有限公司
    發表于 02-20 18:44

    AI技術與PLC編程融合

    如何將AI技術融入PLC編程軟件
    發表于 02-14 15:55

    記憶示波器的原理和應用

    和處理技術,能夠實現對被測信號的精確測量和分析。在實際應用,用戶可以根據具體需求選擇合適的記憶示波器型號和功能。
    發表于 01-06 15:50

    NVIDIA推出全新生成AI模型Fugatto

    NVIDIA 開發了一個全新的生成 AI 模型。利用輸入的文本和音頻,該模型可以創作出包含任意的音樂、人聲和聲音組合的作品。
    的頭像 發表于 11-27 11:29 ?797次閱讀

    生成AI手機如何借力MediaTek天璣平臺引領智能新紀元

    能力和智能的生成AI功能,為用戶帶來了更為個性化、高效的使用體驗。那么,生產AI手機究竟是什么呢?它的背后又有哪些
    的頭像 發表于 11-08 09:53 ?816次閱讀

    生成AI工具作用

    生成AI工具是指那些能夠自動生成文本、圖像、音頻、視頻等多種類型數據的人工智能技術。在此,petacloud.ai小編為您整理生成
    的頭像 發表于 10-28 11:19 ?702次閱讀

    ChatGPT背后AI背景、技術門道和商業應用

    作者:京東科技 李俊兵 各位看官好,我是球神(江湖代號)。 自去年11月30日ChatGPT問世以來,迅速爆火出圈。 起初我依然以為這是和當年Transformer, Bert一樣的“熱點”模型
    的頭像 發表于 10-18 15:42 ?3173次閱讀
    ChatGPT<b class='flag-5'>背后</b>的<b class='flag-5'>AI</b>背景、<b class='flag-5'>技術</b>門道和商業應用

    AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

    for Science的技術支撐”的學習心得,可以從以下幾個方面進行歸納和總結: 1. 技術基礎的深入理解 在閱讀第二章的過程,我對于AI for Science所需的
    發表于 10-14 09:16

    應力記憶技術介紹

    應力記憶技術(Stress Memorization Technique, SMT),是一種利用覆蓋層Si3N4軸張應力提高90nm 及以下工藝制程 NMOS速度的應變硅
    的頭像 發表于 07-29 10:44 ?2881次閱讀
    應力<b class='flag-5'>記憶</b><b class='flag-5'>技術</b>介紹
    主站蜘蛛池模板: 婷婷综合久久中文字幕蜜桃三 | 亚洲综合丁香 | 国产色产综合色产在线观看视频 | 久久国产成人精品国产成人亚洲 | 一本到卡二卡三卡免费高 | 激情综合网色播五月 | 性色在线播放 | 激情综合网五月激情 | 亚洲аv电影天堂网 | 快乐你懂的在线视频免费观看 | 免费污视频在线 | 欧美一级高清免费播放 | 91新地址 | 欧美亚洲一区二区三区在线 | 国产性较精品视频免费 | 经典三级一区二区三区视频 | 美女被免费网站91色 | 亚洲免费在线观看视频 | 久久草在线免费 | 三级特黄视频 | 在线观看不卡一区 | 亚洲狠狠操 | 91国内在线观看 | 六月丁香激情网 | 天堂网www在线观看 天堂网www在线资源中文 | 欧美性videofree精品 | 欧美激情第一欧美在线 | 日本人xxxxxxxxxⅹ69 | 在线观看免费视频网站色 | 无遮挡很爽很污很黄的网站w | 天天久久影视色香综合网 | 狠狠干天天射 | 韩国精品视频 | 黄在线视频 | 日韩毛片免费视频一级特黄 | 久久久夜色精品国产噜噜 | 四虎精品成在线播放 | 性欧美人与zooz | 久久dvd| 中文字幕亚洲一区 | 色综合久久综合欧美综合图片 |