在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

聽音辯貌?MIT最新研究!準確率驚人

MqC7_CAAI_1981 ? 來源:YXQ ? 2019-05-26 10:53 ? 次閱讀

只聽聲音,就能知道一個人長什么樣?

是的。

大名鼎鼎的麻省理工CSAIL(人工智能實驗室),最近就發(fā)布了這樣一個令人驚訝的研究。只需要聽6秒的聲音片段,AI就能推斷出說話者的容貌。

詳細解釋之前,咱們一起試試先。

聽聽下面這段錄音,一共有六段。你能想象出來,說話的人長什么樣么?

怎么樣?你行么?

MIT研究人員,設(shè)計和訓練的神經(jīng)網(wǎng)絡(luò)Speech2Face,就能通過短短的語音片段,推測出說話者的年齡、性別、種族等等多重屬性,然后重建說話人的面部。

下面就是AI聽聲識臉,給出的結(jié)果:

左邊一列是真實的照片,右邊一列是神經(jīng)網(wǎng)絡(luò)根據(jù)聲音推斷出來的長相。

講真,這個效果讓我們佩服。

這篇論文也入圍了今年的學術(shù)頂級會議CVPR 2019。

當然這個研究也會引發(fā)一些隱私方面的擔憂。不過研究團隊在論文中特別聲明,這個神經(jīng)網(wǎng)絡(luò)不追求完全精確還原單一個體的臉部圖像。

不同的語言也有影響。論文中舉了一個案例,同一男子分別說中文和英文,AI卻分別還原出了不同的面孔樣貌。當然,這也跟口音、發(fā)聲習慣等相關(guān)。

另外,研究團隊也表示,目前這套系統(tǒng)對還原白人和東亞人的面孔效果更好。可能由于印度和黑人的數(shù)據(jù)較少,還原效果還有待進一步提高。

原理

從聲音推斷一個人的長相不是一種玄學,平時我們在打電話時會根據(jù)對方的聲音腦補出相貌特征。

這是因為,年齡、性別、嘴巴形狀、面部骨骼結(jié)構(gòu),所有這些都會影響人發(fā)出的聲音。此外,語言、口音、速度通常會體現(xiàn)出一個的民族、地域、文化特征。

AI正是根據(jù)語音和相貌的關(guān)聯(lián)性做出推測。

為此,研究人員提取了幾百萬個YouTube視頻,通過訓練,讓深度神經(jīng)網(wǎng)絡(luò)學習聲音和面部的相關(guān)性,找到說話的人一些基本特征,比如年齡、性別、種族等,并還原出相貌。

而且在這個過程中,不需要人類標記視頻,由模型自我監(jiān)督學習。這就是文章中所說的Speech2Face模型。

將電話另一端通過卡通人物的方式顯示在你的手機上,可能是Speech2Face未來的一種實際應(yīng)用。

模型結(jié)構(gòu)

Speech2Face模型是如何還原人臉的,請看下圖:

給這個網(wǎng)絡(luò)輸入一個復雜的聲譜圖,它將會輸出4096-D面部特征,然后使用預(yù)訓練的面部解碼器將其還原成面部的標準圖像。

訓練模塊在圖中用橙色部分標記。在訓練過程中,Speech2Face模型不會直接用人臉圖像與原始圖像進行對比,而是與原始圖像的4096-D面部特征對比,省略了恢復面部圖像的步驟。

在訓練完成后,模型在推理過程中才會使用面部解碼器恢復人臉圖像。

訓練過程使用的是AVSpeech數(shù)據(jù)集,它包含幾百萬個YouTube視頻,超過10萬個人物的語音-面部數(shù)據(jù)。

在具體細節(jié)上,研究使用的中每個視頻片段開頭最多6秒鐘的音頻,并從中裁剪出人臉面部趨于,調(diào)整到224×224像素。

從原始圖像提取特征重建的人臉,以及從聲音推測的人臉

之前,也有人研究過聲音推測面部特征,但都是從人的聲音預(yù)測一些屬性,然后從數(shù)據(jù)庫中獲取最適合預(yù)測屬性的圖像,或者使用這些屬性來生成圖像。

然而,這種方法存在局限性,需要有標簽來監(jiān)督學習,系統(tǒng)的魯棒性也較差。

由于人臉圖像中面部表情、頭部姿態(tài)、遮擋和光照條件的巨大變化,想要獲得穩(wěn)定的輸出結(jié)果,Speech2Face人臉模型的設(shè)計和訓練變得非常重要。

一般從輸入語音回歸到圖像的簡單方法不起作用,模型必須學會剔除數(shù)據(jù)中許多不相關(guān)的變化因素,并隱含地提取人臉有意義的內(nèi)部表示。

為了解決這些困難,模型不是直接得到人臉圖像,而是回歸到人臉的低維中間表示。更具體地說,是利用人臉識別模型VGG-Face,并從倒數(shù)第二層的網(wǎng)絡(luò)提取一個4096-D面部特征。

模型的pipeline由兩個主要部分組成:

1、語音編碼器

語音編碼器模塊是一個CNN,將輸入的語音聲譜圖轉(zhuǎn)換成偽人臉特征,并預(yù)測面部的低維特征,隨后將其輸入人臉解碼器以重建人臉圖像。

2、面部解碼器

面部解碼器的輸入為低維面部特征,并以標準形式(正面和中性表情)產(chǎn)生面部圖像。

在訓練過程中,人臉解碼器是固定的,只訓練預(yù)測人臉特征的語音編碼器。語音編碼器是作者自己設(shè)計和訓練的模型,而面部解碼器使用的是前人提出的模型。

將實驗結(jié)果更進一步,Speech2Face還能用于人臉檢索。把基于語音的人臉預(yù)測結(jié)果與數(shù)據(jù)庫中的人臉進行比較,系統(tǒng)將給出5個最符合的人臉照片。

不足之處

若根據(jù)語言來預(yù)測種族,那么一個人說不同的語言會導致不同的預(yù)測結(jié)果嗎?

研究人員讓一個亞洲男性分別說英語和漢語,結(jié)果分別得到了2張不同的面孔。

模型有時候也能正確預(yù)測結(jié)果,比如讓一個亞洲小女孩說英文,雖然恢復出的圖像和本人有很大差距,但仍可以看出黃種人的面部特征。

研究人員表示,這個小女孩并沒有明顯的口音特征,所以他們的模型還要進一步檢查來確定對語言的依賴程度。

在其他一些情況下,模型也會“翻車”。比如:變聲期之前的兒童,會導致模型誤判性別發(fā)生錯誤;口音與種族特征不匹配;將老人識別為年輕人,或者是年輕人識別為老人。

作者團隊

這個研究的作者,大部分來自MIT CSAIL。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • MIT
    MIT
    +關(guān)注

    關(guān)注

    3

    文章

    254

    瀏覽量

    24263
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5555

    瀏覽量

    122538

原文標題:MIT腦洞研究!只聽6秒語音,就知道你長什么樣,效果好得不敢信

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    海思SD3403邊緣計算AI數(shù)據(jù)訓練概述

    模型,將模型轉(zhuǎn)化為嵌入式AI模型,模型升級AI攝像機,進行AI識別應(yīng)用。 AI訓練模型是不斷迭代優(yōu)化過程,譬如,100個數(shù)據(jù)樣本模型的識別準確率和10萬個數(shù)據(jù)樣本的識別準確率,不一樣,AI模型理論上是客戶采集訓練樣本越多,準確率
    發(fā)表于 04-28 11:11

    浪潮信息:元腦EPAI已接入DeepSeek,大幅提升DeepSeek企業(yè)應(yīng)用準確率

    結(jié)合,深度開發(fā)模型潛力,快速實現(xiàn)本地化部署DeepSeek,構(gòu)建準確率高、安全穩(wěn)定的專屬智能應(yīng)用。實測數(shù)據(jù)顯示,DeepSeek在元腦企智EPAI上開發(fā)的企業(yè)應(yīng)用回答準確率達到95%。 ? 企業(yè)落地
    的頭像 發(fā)表于 02-23 07:32 ?528次閱讀
    浪潮信息:元腦EPAI已接入DeepSeek,大幅提升DeepSeek企業(yè)應(yīng)用<b class='flag-5'>準確率</b>

    Meta非入侵式腦機技術(shù):AI讀取大腦信號打字準確率80%

    腦機技術(shù)主要通過AI模型與特定硬件的結(jié)合,將用戶的大腦信號映射成具體的鍵盤字符。該技術(shù)的準確率高達約80%,能夠準確判斷用戶在“敲擊”的按鍵,從而實現(xiàn)文字輸入。 值得注意的是,這項設(shè)備完全依靠外部腦機讀取用戶的大腦信號,無需進行植
    的頭像 發(fā)表于 02-11 15:45 ?607次閱讀

    請問AFE4400 SPO2精度和準確率如何?

    請問用TI 的AFE4400 EVM 測量SPO2 的值,有沒有詳細的說明其測量的準確率和精度,抗弱灌注等。謝謝! 比如如下類似: SpO2 測量范圍 0~100% 分辨 1% 精度 70~100%, 2%
    發(fā)表于 01-15 07:02

    如何提升人臉門禁一體機的識別準確率

    人臉門禁一體機作為現(xiàn)代安全管理的重要設(shè)備,廣泛應(yīng)用于企業(yè)、學校、社區(qū)等多個場所。其高效便捷的特性讓人們可以快速通過門禁,然而,識別準確率的高低直接影響到使用體驗與安全性。為了提高人臉門禁一體機的識別
    的頭像 發(fā)表于 12-10 15:05 ?868次閱讀
    如何提升人臉門禁一體機的識別<b class='flag-5'>準確率</b>?

    電導測定儀:功能全面,準確測量

    在當今的水質(zhì)監(jiān)測領(lǐng)域,電導測定儀作為一款高效、準確的測量設(shè)備,正發(fā)揮著越來越重要的作用。它不僅能夠準確測量溶液的電導值,還具備自動溫度補償、一體式設(shè)計以及防水性能等特點,成為水質(zhì)監(jiān)
    的頭像 發(fā)表于 11-28 13:41 ?930次閱讀

    KiCon演講回顧(四):AI助力電子元件庫自動化提取

    操作多、耗時、易出錯。 技術(shù)要求:符號庫生成準確率>99%,封裝庫幾何精度0.01mm,識別準確率>99%。 企業(yè)需求:廣東-香港-澳門地區(qū)對符號與封裝建模工具的需求,包括行業(yè)標準、平臺要求、庫可持續(xù)性等。 Footprintku AI:行業(yè)發(fā)展趨勢 基于AI的元件
    的頭像 發(fā)表于 11-25 11:56 ?1287次閱讀
    KiCon演講回顧(四):AI助力電子元件庫自動化提取

    微機保護裝置預(yù)警功能的準確率

    異常狀態(tài)。 微機保護裝置的預(yù)警功能準確率是衡量其性能的重要指標,它直接關(guān)系到裝置能否及時準確地檢測潛在的故障或異常情況,從而預(yù)防事故的發(fā)生。 準確率影響因素: 1.硬件性能:高精度的傳感器和強大的數(shù)據(jù)處理單元直
    的頭像 發(fā)表于 11-03 16:10 ?466次閱讀

    SynSense時識科技與海南大學聯(lián)合研究成果發(fā)布

    處理器Xylo和脈沖神經(jīng)網(wǎng)絡(luò)技術(shù)實現(xiàn)超低功耗的實時癲癇檢測系統(tǒng),結(jié)果顯示系統(tǒng)準確率高達93.3%,檢測延遲平均僅0.5秒,計算功耗僅為287.9微瓦。
    的頭像 發(fā)表于 10-23 14:40 ?792次閱讀
    SynSense時識科技與海南大學聯(lián)合<b class='flag-5'>研究</b>成果發(fā)布

    ai人工智能回答準確率高嗎

    人工智能(AI)回答的準確率是一個相對的概念,會受到多個因素的影響,因此不能一概而論地說其準確率高或低。以下是對AI回答準確率及其影響因素的分析: 一、AI回答準確率的現(xiàn)狀 在某些特定
    的頭像 發(fā)表于 10-17 16:30 ?6442次閱讀

    TLV320AIC23B為什么無法準確得到8K采樣

    能否幫忙解釋下TLV320AIC23B 規(guī)格書中提到的這句話的解釋, 我們理解是在usb mode 下,由于超采樣關(guān)系,無法準確得到8K采樣,實際的采樣應(yīng)該為8.021k。 目前我們AIC23B
    發(fā)表于 10-09 10:15

    NIUSB6009 采集準確率的問題?

    NIUSB6009 采集準確率的問題? 一、本人做一個中間繼電器電性能實驗的裝置 1、PLC帶動中間繼電器吸合和釋放,(吸合用時1.5秒,釋放用時1.5秒)周而復始的運動。 2、中間繼電器的觸頭負載
    發(fā)表于 09-23 15:59

    NVIDIA文本嵌入模型NV-Embed的精度基準

    NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分數(shù)創(chuàng)下了嵌入準確率的新紀錄海量文本嵌入基準測試(MTEB)涵蓋 56 項嵌入任務(wù)。
    的頭像 發(fā)表于 08-23 16:54 ?2415次閱讀
    NVIDIA文本嵌入模型NV-Embed的精度基準

    準確率高達97%!腦機接口讓漸凍癥患者重新“說話”

    行業(yè)芯事行業(yè)資訊
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2024年08月16日 10:51:58
    主站蜘蛛池模板: 中文字幕在线不卡 | 精品一区二区三区免费毛片爱 | 欲妇放荡叫床很浪的小说 | 亚洲欧美4444kkkk| 三级网站在线免费观看 | 日韩欧美亚洲综合久久影院d3 | 午夜视频免费国产在线 | 手机看片日本 | 久久五月网 | 亚洲一一在线 | 韩国三级中文字幕hd | 欧美一级淫片免费播放口 | 日本欧美一区二区三区不卡视频 | 李老汉的性生生活1全部 | 久久夜色精品国产飘飘 | 欧美性天天影院 | 国产精品美女久久久久网 | 起碰成人免费公开网视频 | 久久人人爽爽爽人久久久 | 国产专区青青草原亚洲 | 91po狼人社在线观看 | 中文天堂在线最新2022更新 | 免费看特级淫片日本 | 欧美二区三区 | 天堂资源wwww在线看 | 日日噜噜噜夜夜爽爽狠狠图片 | 丁香狠狠色婷婷久久综合 | 你懂的在线视频观看 | 天天鲁天天爽天天视频 | 天堂在线影院 | 男女视频在线观看免费 | 亚洲成网 | 国产精品成人一区二区 | 四虎美女 | 欧美猛交喷潮在线播放 | 97精品伊人久久大香线蕉 | 天天做天天爱天天做天天吃中 | 在线视频观看你懂的 | 亚洲免费视频网址 | 国产精品欧美一区二区三区 | 国产精品午夜剧场 |