有声小说下载,女强穿越玄幻完结小说,辰东

電子發(fā)燒友網(wǎng)報(bào)道（文/李彎彎）AI技術(shù)的應(yīng)用，給我們的生活帶來了巨大改變。同時(shí)，它的不當(dāng)使用也帶來了侵權(quán)、詐騙等風(fēng)險(xiǎn)。近日，北京互聯(lián)網(wǎng)法院首次組成五人合議庭，依法公開審理全國首例“AI聲音侵權(quán)案”。

該案中，原告殷某某以配音為職業(yè)，曾錄制多部有聲作品。殷某某意外發(fā)現(xiàn)，自己的聲音被AI化后，在一款名為“魔音工坊”的APP上以“魔小璇”的名義對(duì)外出售。因此，殷某某以被告行為侵害其聲音權(quán)為由，將“魔音工坊”的運(yùn)營主體北京小問智能科技有限公司等五被告起訴到北京互聯(lián)網(wǎng)法院。

AI聲音侵權(quán)案始末

目前，該案件仍在審理中，五被告均否認(rèn)侵權(quán)。北京小問智能科技有限公司認(rèn)為，其APP中的聲音產(chǎn)品有合法來源，來自于微軟（中國）有限公司。微軟（中國）有限公司稱其使用的聲音來源于中廣影音（北京）文化傳媒有限公司。

中廣影音（北京）文化傳媒有限公司認(rèn)為其與原告有過合作，約定經(jīng)原告錄制形成的作品著作權(quán)歸屬其所有。上海藍(lán)云網(wǎng)絡(luò)科技有限公司和北京信諾時(shí)代科技發(fā)展有限公司辯稱，其分別為微軟中國的平臺(tái)運(yùn)營商與涉案產(chǎn)品的經(jīng)銷商，不構(gòu)成侵權(quán)。

原告則認(rèn)為，他人利用原告聲音的配音作品在抖音、直播吧等APP廣泛流傳，其中抖音用戶“小禾侃劇”自2021年9月7日至今，共發(fā)布使用原告聲音的作品119部。經(jīng)聲音篩選和溯源，發(fā)現(xiàn)上述聲音作品中的聲音來自于被告北京小問智能科技有限公司運(yùn)營的“魔音工坊”APP。

被告中廣影音（北京）文化傳媒有限公司將原告為其錄制的3本書的音頻交給被告微軟（中國）有限公司，被告微軟（中國）有限公司將原告的聲音進(jìn)行AI化處理，并向被告上海藍(lán)云網(wǎng)絡(luò)科技有限公司和被告北京信諾時(shí)代科技發(fā)展有限公司授權(quán)對(duì)外出售。

但是，原告從未授權(quán)過任何第三人將其錄制的聲音進(jìn)行AI化并對(duì)外銷售，上述被告的行為已經(jīng)嚴(yán)重侵犯了原告的聲音權(quán)，應(yīng)承擔(dān)停止侵權(quán)、賠禮道歉及賠償原告經(jīng)濟(jì)損失、精神損失的侵權(quán)責(zé)任。

北京小問智能科技有限公司是出門問問旗下公司，魔音工坊是出門問問面向AI配音場景推出的新一代AI配音產(chǎn)品。在大模型技術(shù)的加持下，“魔音工坊”是全球首款搭載了大模型AI寫作功能的配音平臺(tái)，覆蓋了AI寫作、AI配音和剪輯等多個(gè)場景。用戶可以在它的輔助下輕松完成影視解說、有聲書、在線教育、新聞播報(bào)等集文案與配音于一體的內(nèi)容創(chuàng)作。

如今，短視頻、有聲書市場蓬勃發(fā)展，這也使得聲音合成技術(shù)有了廣泛的應(yīng)用空間。在應(yīng)用市場和深度學(xué)習(xí)技術(shù)的發(fā)展下，語音合成技術(shù)已經(jīng)非常成熟。可以看到上述情況是，原告給某公司錄過幾本書，它的聲音在沒被授權(quán)的情況下通過AI化之后，進(jìn)行出售。

這其實(shí)就是現(xiàn)在大家談到的聲音克隆，也稱為語音合成定制，是一種深度學(xué)習(xí)算法。平臺(tái)方可以通過各種渠道獲得某人的聲音之后，哪怕這個(gè)人只是說了幾段話，通過AI技術(shù)都可以合成與原說話人非常相似的聲音。

語音合成歷史及應(yīng)用趨勢

語音合成，又稱文語轉(zhuǎn)換（Text to Speech）技術(shù)，能將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音朗讀出來，相當(dāng)于給機(jī)器裝上了人工嘴巴。它涉及聲學(xué)、語言學(xué)、數(shù)字信號(hào)處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科技術(shù)，是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù)，解決的主要問題就是如何將文字信息轉(zhuǎn)化為可聽的聲音信息，也即讓機(jī)器像人一樣開口說話。

事實(shí)上，早在18到19世紀(jì)，語音合成技術(shù)就已經(jīng)出現(xiàn)，當(dāng)時(shí)是用機(jī)械裝置來模擬人的發(fā)聲，那時(shí)候科學(xué)家們會(huì)制作出一些精巧的氣囊和風(fēng)箱去搭建發(fā)聲的系統(tǒng)，可以合成出一些元音和單音。20世紀(jì)初，出現(xiàn)了用電子合成器來模擬人發(fā)聲的技術(shù)，最具代表性的就是貝爾實(shí)驗(yàn)室的Dudley，他在1939年推出了名為“VODER”的電子發(fā)聲器，使用電子器件來模擬聲音的諧振。

到了20世紀(jì)80年代，隨著集成電路技術(shù)的發(fā)展，出現(xiàn)了比較復(fù)雜的組合型的電子發(fā)生器，比較代表性的KLATT在1980年發(fā)布的串/并聯(lián)混合共振峰合成器。到了20世紀(jì)80、90年代隨著PSOLA方法的提出和計(jì)算機(jī)能力的發(fā)展，單元挑選和波形拼接技術(shù)逐漸走向成熟，90年代末劉慶峰博士提出聽感量化思想，首次將中文語音合成技術(shù)做到了實(shí)用化地步。

在20世紀(jì)末期，還有另外一種基于HMM的參數(shù)合成技術(shù)出現(xiàn)。而近些年，隨著AI技術(shù)不斷發(fā)展，基于深度學(xué)習(xí)的語音合成技術(shù)逐漸被人們所知道，DNN/CNN/RNN等各種神經(jīng)網(wǎng)絡(luò)構(gòu)型都可以用來做語音合成系統(tǒng)的訓(xùn)練，深度學(xué)習(xí)的算法可以更好地模擬人聲變化規(guī)律。語音合成技術(shù)應(yīng)用也迎來了高速發(fā)展。

當(dāng)下，AI聲音合成技術(shù)的市場需求確實(shí)非常明顯。直播、短視頻、有聲書的市場需求空間大，然而未接受過聲音培訓(xùn)的普通人對(duì)于自己的聲音滿意度并不高。而通過AI技術(shù)讓配音，或者美化自己的聲音正在成為趨勢。上文提到的魔音工坊正是通過技術(shù)手段為用戶提供好聽的聲音。

小結(jié)

當(dāng)前來說，AI技術(shù)侵權(quán)的問題仍然還未得到解決，就如之前使用圖片所有權(quán)人的圖片進(jìn)行訓(xùn)練，生成的圖片，這是否構(gòu)成對(duì)圖片所有權(quán)人的圖片的侵權(quán)。聲音訓(xùn)練也是如此，使用某人的聲音訓(xùn)練出了跟這個(gè)人類似的聲音，這個(gè)合成的聲音所有權(quán)算誰的？這些還需要進(jìn)一步探討出相應(yīng)的規(guī)范才行。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴