91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google研究人員發(fā)現(xiàn)黑科技 只聽你想聽的聲音

454398 ? 來源:網(wǎng)絡(luò)整理 ? 作者: 工程師1 ? 2018-04-18 00:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Google 的研究人員創(chuàng)建了一個(gè)視聽模型,可以通過算法視頻中的多個(gè)聲音分離,得到一個(gè)清晰的單個(gè)語音。

一位二次元朋友說他有一種能力,就是在 B 站開彈幕看視頻時(shí),想看視頻就看視頻,想看彈幕就看彈幕,兩者可以自動(dòng)分離,不會(huì)互相干擾。類似的,人類在聽覺上也有一種選擇能力,就是人在集中注意力聽某個(gè)聲音時(shí),可以自動(dòng)忽略其他聲音或噪音,感覺像是把要聽的聲音放大了一樣,這種現(xiàn)象叫做雞尾酒會(huì)效應(yīng)。

這種能力對(duì)我們來說好像很自然,但對(duì)于計(jì)算機(jī)可是個(gè)不小的挑戰(zhàn)。最近,Google 的研究人員創(chuàng)建了一個(gè)視聽模型,可以通過算法將視頻中的多個(gè)聲音分離,得到一個(gè)清晰的單個(gè)語音。簡單來說,你可以選擇只聽視頻中某個(gè)人講話的聲音,而不用擔(dān)心被干擾。

結(jié)合視覺聽覺信號(hào),識(shí)別并分離音軌

利用這種技術(shù)制作的視頻可以將特定人物的聲音增強(qiáng),把其他無關(guān)的聲音去掉。在普通的單音軌視頻中,用戶可以點(diǎn)擊自己想關(guān)注的人物,或者算法會(huì)結(jié)合上下段內(nèi)容來自動(dòng)選擇突出誰的聲音。這項(xiàng)技術(shù)可以用于增強(qiáng)視頻中的語音,提高視聽效果。

這項(xiàng)技術(shù)的原理是結(jié)合視頻中的聽覺和視覺信號(hào),以此來識(shí)別并分離語音。就像識(shí)別唇語的原理一樣,一個(gè)人說話時(shí)發(fā)出的聲音和他嘴部的運(yùn)動(dòng)存在某種關(guān)聯(lián),所以可以利用這一點(diǎn),來辨別某段聲音是誰發(fā)出的。在視覺信號(hào)的幫助下,即使是在多種聲音混雜的環(huán)境中,單個(gè)聲音的特征也變得更明顯,更重要的是,你還可以在聽到清晰聲音的同時(shí)看到人嘴部的運(yùn)動(dòng),更容易接收并理解信息。

研究人員用 10 萬個(gè)高質(zhì)量的 YouTube 視頻為樣本,從視頻中提取清晰的演講片段,沒有背景音樂、沒有觀眾鼓掌、沒有噪音,并且視頻中只有一個(gè)說話的人。他們共提取出 2000 個(gè)小時(shí)的訓(xùn)練數(shù)據(jù),用這些干凈的視頻來合成“雞尾酒會(huì)”的效果。這樣就可以訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型,將合成的視頻分離出多個(gè)單獨(dú)的音軌,也就是每個(gè)人單獨(dú)的聲音。將每一幀中嘴部運(yùn)動(dòng)的視覺信息提取出來,然后找到聲譜圖中對(duì)應(yīng)的部分。這樣就可以訓(xùn)練神經(jīng)網(wǎng)絡(luò),從聲音混雜的視頻中,根據(jù)人的嘴部運(yùn)動(dòng)來提取對(duì)應(yīng)的聲音碎片,最后輸出成具有單獨(dú)聲音軌道的視頻,每一個(gè)人的聲音都可以進(jìn)行單獨(dú)播放。

可以提高語音識(shí)別能力

這個(gè)黑科技在語音識(shí)別中尤其有用,比如 YouTube 自己的自動(dòng)字幕,如果視頻中有多種聲音混合,字幕就很難準(zhǔn)確顯示,而如果這幾種聲音能夠單獨(dú)分離播放,對(duì)應(yīng)的字幕也就更準(zhǔn)確,用戶也更容易理解。再往遠(yuǎn)處想,這項(xiàng)技術(shù)可以運(yùn)用到 Google Glass 這樣的智能眼鏡中,即使是在紛雜世界,你也可以只關(guān)注想關(guān)注的人,只聽 Ta 的聲音。除此之外,帶視頻能力的智能音箱可能是未來的大趨勢(shì),有了語音分離能力,語音識(shí)別的能力也會(huì)更精準(zhǔn)、更強(qiáng)大。

這種強(qiáng)大的能力也可能帶來隱私問題,比如間諜電影中經(jīng)常見到的天眼系統(tǒng),如果再搭配語音分離的能力,豈不是可以做到視聽上的全能?不過想達(dá)到那樣的效果,識(shí)別能力就要很精準(zhǔn)了。在此之前它的應(yīng)用可能只是 Google 自己的產(chǎn)品,比如增強(qiáng)視頻智能音箱的語音識(shí)別能力,還有讓 YouTube 的自動(dòng)字幕更智能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Google
    +關(guān)注

    關(guān)注

    5

    文章

    1789

    瀏覽量

    58988
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6231

    瀏覽量

    108102
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    無刷直流電機(jī)雙閉環(huán)串級(jí)控制系統(tǒng)仿真研究

    以來伴隨著永磁材料技術(shù)、計(jì)算機(jī)及控制技術(shù)等支撐技術(shù)的快速發(fā)展及微電機(jī)制造工藝水平的不斷提高,永磁無刷直流電動(dòng)機(jī)在高性能中、小伺服驅(qū)動(dòng)領(lǐng)域獲得廣泛應(yīng)用并日趨占據(jù)主導(dǎo)地位嗎。一直以來,研究人員都比較關(guān)注利用
    發(fā)表于 07-07 18:36

    NVIDIA助力研究人員開發(fā)用于搜救任務(wù)的無人地面車輛

    NVIDIA 和 Bridge to Türkiye Fund 通過提供學(xué)術(shù)資助,在土耳其全國推動(dòng)針對(duì)災(zāi)害響應(yīng)的創(chuàng)新研究及工程教育的發(fā)展。
    的頭像 發(fā)表于 07-04 15:01 ?328次閱讀

    Google Fast Pair服務(wù)簡介

    Google Fast Pair 是一項(xiàng)利用低功耗藍(lán)牙(Bluetooth LE)技術(shù),實(shí)現(xiàn)設(shè)備間快速安全配對(duì)及提供多種服務(wù)的協(xié)議。其主要功能包括: 設(shè)備處于配對(duì)模式時(shí),顯示半頁通知,便于用戶進(jìn)行
    發(fā)表于 06-29 19:28

    研究人員開發(fā)出基于NVIDIA技術(shù)的AI模型用于檢測瘧疾

    瘧疾曾一度在委內(nèi)瑞拉銷聲匿跡,但如今正卷土重來。研究人員已經(jīng)訓(xùn)練出一個(gè)模型來幫助檢測這種傳染病。
    的頭像 發(fā)表于 04-25 09:58 ?389次閱讀

    虹科直播 | 現(xiàn)場實(shí)測!如何準(zhǔn)確識(shí)別你想修的聲音?這份進(jìn)階秘籍別錯(cuò)過!

    直播預(yù)告如果說車輛各系統(tǒng)正常運(yùn)行時(shí)的聲音,是一場精彩的交響樂。那當(dāng)其中一個(gè)系統(tǒng)或部件損壞,就將變成讓聽眾皺眉的不和諧之音。面對(duì)數(shù)量眾多的演奏“樂器”,如何從中找到異常聲音的來源?例如,在下面這臺(tái)
    的頭像 發(fā)表于 04-09 11:09 ?234次閱讀
    虹科直播 | 現(xiàn)場實(shí)測!如何準(zhǔn)確識(shí)別<b class='flag-5'>你想</b>修的<b class='flag-5'>聲音</b>?這份進(jìn)階秘籍別錯(cuò)過!

    研究人員利用激光束開創(chuàng)量子計(jì)算新局面

    演示設(shè)備 威特沃特斯蘭德大學(xué)(Wits)的物理學(xué)家利用激光束和日常顯示技術(shù)開發(fā)出了一種創(chuàng)新的計(jì)算系統(tǒng),標(biāo)志著在尋求更強(qiáng)大的量子計(jì)算解決方案方面取得了重大飛躍。 該大學(xué)結(jié)構(gòu)光實(shí)驗(yàn)室的研究人員取得的這一
    的頭像 發(fā)表于 12-18 06:24 ?368次閱讀
    <b class='flag-5'>研究人員</b>利用激光束開創(chuàng)量子計(jì)算新局面

    NVIDIA AI助力日本制藥公司推進(jìn)藥物研發(fā)

    制藥公司、醫(yī)療技術(shù)公司和學(xué)術(shù)研究人員正在開發(fā)主權(quán) AI 能力,以驅(qū)動(dòng)藥物發(fā)現(xiàn)、加速基因組學(xué)和醫(yī)療設(shè)備。
    的頭像 發(fā)表于 11-19 15:40 ?818次閱讀

    TLV320AIC3106在將PC端采集的數(shù)據(jù)放倒芯片進(jìn)行播放的時(shí)候發(fā)現(xiàn)有大量噪音“咯吱咯吱“的聲音,為什么?

    :采樣的頻率8k,雙聲道 問題:在將音頻卡采集的數(shù)據(jù)在PC端進(jìn)行播放的時(shí)候很流暢,沒有噪音,但是在將PC端采集的數(shù)據(jù)放倒芯片進(jìn)行播放的時(shí)候發(fā)現(xiàn)有大量噪音“咯吱咯吱“的聲音,為了驗(yàn)證不是PC端采集
    發(fā)表于 11-06 06:38

    AIC3104使用SLAVE模式,發(fā)現(xiàn)聲音有時(shí)正常,有時(shí)噪聲很大,為什么?

    AIC3104使用SLAVE模式,MCLK為8192KHZ,BCLK為256KHZ,FS為8KHZ。發(fā)現(xiàn)聲音有時(shí)正常,有時(shí)噪聲很大,有時(shí)無聲,查看波形,BCLK均為下圖所示的凸?fàn)睿現(xiàn)S波形則有時(shí)也為凸?fàn)睿袝r(shí)為標(biāo)準(zhǔn)矩形;問題源頭是否BCLK為凸?fàn)钅兀?
    發(fā)表于 10-23 06:18

    裝機(jī)測試TAS5805使用2.0模式發(fā)現(xiàn)有一個(gè)聲道沒有聲音會(huì)是什么原因?

    裝機(jī)測試TAS5805使用2.0模式發(fā)現(xiàn)有一個(gè)聲道沒有聲音會(huì)是什么原因,PVDD 21vVDD3.3v
    發(fā)表于 10-17 07:54

    使用TPA3221在BTL模式下,接一個(gè)輸出4歐姆的喇叭,在音源有高音部分的時(shí)候會(huì)出現(xiàn)一小段類似保護(hù)的聲音怎么解決?

    我們使用的TPA3221在BTL模式下,如果接雙聲道的話不會(huì)有任何異常,但是在BTL模式下接一個(gè)輸出4歐姆的喇叭,在音源有高音部分的時(shí)候會(huì)出現(xiàn)一小段類似保護(hù)的聲音。檢測接了一個(gè)負(fù)載輸出電感的波形
    發(fā)表于 10-15 07:47

    tas5612la 24v供電,使用單通道BTL,這樣連接輸出聲音小,怎么處理?

    如圖,24v供電,使用單通道BTL,這樣連接輸出聲音小,測OUTA對(duì)地電壓只有8--10V 因此修改,把另一個(gè)通道的電源和部分元件也接上,這樣似乎正常了,OUTA對(duì)地有12v,聲音
    發(fā)表于 10-14 07:55

    使用PPC母版、tas5825mevm-sb進(jìn)行測試,但是聲音發(fā)一聲,或者沒有聲音,為什么?

    使用PPC母版、tas5825mevm-sb進(jìn)行測試,左通道連接了一個(gè)揚(yáng)聲器,電源是12V,按照官方文檔測試,如下圖。但是聲音發(fā)一聲,或者沒有聲音
    發(fā)表于 10-12 06:49

    TPA3116D2每次剛開機(jī)聲音開最大播放聲音會(huì)卡頓,為什么?

    我們?cè)谑褂肨PA3116D2的過程中發(fā)現(xiàn)一個(gè)問題,當(dāng)剛開機(jī)時(shí),最大聲音播放的時(shí)候TPA3116D2聲音會(huì)卡頓,過1分鐘左右會(huì)恢復(fù)正常,每次都是這樣。也就是當(dāng)TPA3116D2在冷卻的時(shí)候聲音
    發(fā)表于 09-29 07:59

    Google Play三項(xiàng)重要更新

    Google Play,我們熱衷于幫助用戶發(fā)現(xiàn)他們喜歡的體驗(yàn),同時(shí)為開發(fā)者賦能,讓您能夠?qū)?chuàng)意付諸實(shí)踐,并成功發(fā)展業(yè)務(wù)。在今年的 Google I/O 大會(huì)上,我們分享了最新進(jìn)展,這些進(jìn)展將幫助您獲取和吸引用戶,提高您的收入
    的頭像 發(fā)表于 09-09 15:28 ?740次閱讀
    主站蜘蛛池模板: 日韩三级毛片 | 婷婷开心激情网 | 午夜免费视频观看 | 免费大秀视频在线播放 | 亚洲综合久久久久久888 | 91国内视频| 天堂资源在线观看 | 激情亚洲 | 天天操夜夜操免费视频 | 欧美成人看片一区二区三区 | 在线免费影视 | 久久天天躁狠狠躁夜夜免费观看 | 色播在线视频 | 农村一级片 | 四虎影视地址 | 亚洲一二 | 久久精品国产免费观看99 | 日韩一卡 二卡 三卡 四卡 免费视频 | 亚洲国产成人精品青青草原100 | 色偷偷亚洲天堂 | 国内一级特黄女人精品毛片 | 久久久婷婷 | 九七婷婷狠狠成人免费视频 | 两性色视频 | 夜色资源站www国产在线观看 | 亚洲色图图片专区 | 久久草在线免费 | 色丁香在线视频 | 激情综合在线观看 | 国产福利2021最新在线观看 | 男人午夜天堂 | 国产精品bdsm在线调教 | videossexotv极度另类高清 | 久久久噜噜噜久久久午夜 | 婷婷sese| 午夜免费小视频 | 日韩免费在线视频 | yy6080三级理论韩国日本 | 边做边爱在线观看视频免费 | 爱婷婷网站在线观看 | 又色又爽又黄视频 |