您是否曾經(jīng)僅僅根據(jù)他們的聲音來構(gòu)造一個從未見過的人的心理形象?人工智能(AI)現(xiàn)在可以做到這一點,僅使用簡短的音頻剪輯作為參考即可生成人臉的數(shù)字圖像。
這個名為“ Speech2Face” 的神經(jīng)網(wǎng)絡(luò)(一種以類似于人腦的方式“思考”的計算機)經(jīng)過科學(xué)家培訓(xùn),接受了來自互聯(lián)網(wǎng)的數(shù)百萬個教育視頻,顯示了100,000多個不同的人在說話。
研究人員在一項新研究中寫道,Speech2Face通過該數(shù)據(jù)集學(xué)習(xí)了語音提示與人臉某些物理特征之間的關(guān)聯(lián)。然后,AI使用音頻剪輯對與語音匹配的真實感面部建模。
值得慶幸的是,人工智能還不能僅僅根據(jù)他們的聲音確切地知道特定的人是什么樣。研究作者報告說,神經(jīng)網(wǎng)絡(luò)識別語音中的某些標(biāo)記,這些標(biāo)記指向性別,年齡和種族,是許多人共有的特征。
科學(xué)家寫道:“因此,該模型只會產(chǎn)生看上去普通的面孔。” “它不會產(chǎn)生特定個人的圖像。”
盡管坦率地說,對貓的解釋有點讓人恐懼,但AI已經(jīng)證明它可以產(chǎn)生出異常準(zhǔn)確的人臉。
由Speech2Face生成的臉部-均面向正面并具有中性表情-與聲音背后的人并不完全匹配。但是,根據(jù)這項研究,這些圖像通常確實可以捕捉到正確的年齡范圍,種族和性別。
但是,該算法的解釋遠非完美。當(dāng)面對語言變化時,Speech2Face表現(xiàn)出“混合表現(xiàn)”。例如,當(dāng)AI收聽亞洲人講中文的音頻片段時,該程序會產(chǎn)生亞洲人臉的圖像。然而,據(jù)科學(xué)家報道,當(dāng)同一個人用不同的音頻片段講英語時,人工智能產(chǎn)生了白人的面孔。
該算法還顯示出性別偏見,將低音調(diào)的聲音與男性面孔相關(guān)聯(lián),將高音調(diào)的聲音與女性面孔相關(guān)聯(lián)。研究人員寫道,由于訓(xùn)練數(shù)據(jù)集僅代表YouTube上的教育視頻,因此“并不代表整個世界人口。”
-
數(shù)字圖像
+關(guān)注
關(guān)注
2文章
120瀏覽量
19085 -
人工智能
+關(guān)注
關(guān)注
1805文章
48883瀏覽量
247730 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1223瀏覽量
25343
發(fā)布評論請先 登錄
AI玩具爆發(fā),音頻編解碼器如何滿足語音交互需求
康謀方案 | 高精LiDAR+神經(jīng)渲染3DGS的完美融合實踐

90元打造小智AI腕表,語音交互超有趣!
零知開源——ESP32語音交互系統(tǒng)(AI小智)開發(fā)教程
零知開源——ESP32語音交互系統(tǒng)(AI小智)開發(fā)教程

借助Arm技術(shù)革新未來手游體驗
芯知識 決定語音芯片高音質(zhì)的因素
HarmonyOS NEXT 應(yīng)用開發(fā)練習(xí):AI智能語音播報
XMOS將亮相CES 2025,展示全新AI音頻技術(shù)
充電樁語音方案,支持OTA語音升級的音頻芯片NV400F

tlv320Ai32在輸出音頻時總有絲絲聲,為什么?
NVH-FLASH語音芯片支持平臺做語音—打造音頻IC技術(shù)革新

真實感受,迷你主機到底是不是智商稅?

開放式音頻系統(tǒng)引入AI大模型,藍牙音頻SOC邁向高端化

評論