您是否曾經僅僅根據他們的聲音來構造一個從未見過的人的心理形象?人工智能(AI)現在可以做到這一點,僅使用簡短的音頻剪輯作為參考即可生成人臉的數字圖像。
這個名為“ Speech2Face” 的神經網絡(一種以類似于人腦的方式“思考”的計算機)經過科學家培訓,接受了來自互聯網的數百萬個教育視頻,顯示了100,000多個不同的人在說話。
研究人員在一項新研究中寫道,Speech2Face通過該數據集學習了語音提示與人臉某些物理特征之間的關聯。然后,AI使用音頻剪輯對與語音匹配的真實感面部建模。
值得慶幸的是,人工智能還不能僅僅根據他們的聲音確切地知道特定的人是什么樣。研究作者報告說,神經網絡識別語音中的某些標記,這些標記指向性別,年齡和種族,是許多人共有的特征。
科學家寫道:“因此,該模型只會產生看上去普通的面孔。” “它不會產生特定個人的圖像。”
盡管坦率地說,對貓的解釋有點讓人恐懼,但AI已經證明它可以產生出異常準確的人臉。
由Speech2Face生成的臉部-均面向正面并具有中性表情-與聲音背后的人并不完全匹配。但是,根據這項研究,這些圖像通常確實可以捕捉到正確的年齡范圍,種族和性別。
但是,該算法的解釋遠非完美。當面對語言變化時,Speech2Face表現出“混合表現”。例如,當AI收聽亞洲人講中文的音頻片段時,該程序會產生亞洲人臉的圖像。然而,據科學家報道,當同一個人用不同的音頻片段講英語時,人工智能產生了白人的面孔。
該算法還顯示出性別偏見,將低音調的聲音與男性面孔相關聯,將高音調的聲音與女性面孔相關聯。研究人員寫道,由于訓練數據集僅代表YouTube上的教育視頻,因此“并不代表整個世界人口。”
-
數字圖像
+關注
關注
2文章
119瀏覽量
18872 -
人工智能
+關注
關注
1796文章
47785瀏覽量
240542 -
數據集
+關注
關注
4文章
1209瀏覽量
24848
發布評論請先 登錄
相關推薦
HarmonyOS NEXT 應用開發練習:AI智能語音播報
XMOS將亮相CES 2025,展示全新AI音頻技術
充電樁語音方案,支持OTA語音升級的音頻芯片NV400F
![充電樁<b class='flag-5'>語音</b>方案,支持OTA<b class='flag-5'>語音</b>升級的<b class='flag-5'>音頻</b>芯片NV400F](https://file.elecfans.com/web2/M00/42/BC/pYYBAGJ6JAOAWhY7AAAjPnDlpp8975.jpg)
tlv320Ai32在輸出音頻時總有絲絲聲,為什么?
NVH-FLASH語音芯片支持平臺做語音—打造音頻IC技術革新
![NVH-FLASH<b class='flag-5'>語音</b>芯片支持平臺做<b class='flag-5'>語音</b>—打造<b class='flag-5'>音頻</b>IC技術革新](https://file.elecfans.com/web2/M00/42/BC/pYYBAGJ6JAOAWhY7AAAjPnDlpp8975.jpg)
真實感受,迷你主機到底是不是智商稅?
![<b class='flag-5'>真實感</b>受,迷你主機到底是不是智商稅?](https://file1.elecfans.com//web2/M00/03/50/wKgaoma7NI2AQ3sdAFrbjA7qDxo456.jpg)
開放式音頻系統引入AI大模型,藍牙音頻SOC邁向高端化
![開放式<b class='flag-5'>音頻</b>系統引入<b class='flag-5'>AI</b>大模型,藍牙<b class='flag-5'>音頻</b>SOC邁向高端化](https://file1.elecfans.com/web2/M00/06/BF/wKgZombqeYWAZ1GdAAdZIHTUOxc409.png)
聆思CSK6視覺語音大模型AI開發板入門資源合集(硬件資料、大模型語音/多模態交互/英語評測SDK合集)
3D建模的特點和優勢都有哪些?
谷歌推出多模態VLOGGER AI
![](https://file1.elecfans.com/web2/M00/C4/CD/wKgaomXvFzmAavYjAAFZY-NM2oc384.jpg)
評論