欢乐颂第一季,完美世界辰东,天域苍穹

智能語音是人工智能技術(shù)的重要組成部分，包括聲音前端信號處理、語音識別、語義理解、自然語言處理、語音合成等細分領(lǐng)域。在技術(shù)的具體落地中，消費級智能硬件是最早顯示出市場潛力的賽道，從藍牙耳機到可穿戴設(shè)備再到智能家居，各種產(chǎn)品都離不開相關(guān)的智能語音技術(shù)，而語音交互的第一步就是聽見，聲音前端信號處理的效果一定程度上制約了語音識別的效果，當(dāng)前也有一些公司正在解決這一讓各類產(chǎn)品“聽得更清晰”的問題。

36氪日前接觸到的「大象聲科」，是一家專注于機器聽覺的人工智能公司。該公司于2017年在深圳成立，致力于應(yīng)用深度學(xué)習(xí)變革傳統(tǒng)語音信號處理，讓機器擁有類似人耳一樣的聽覺感知能力。據(jù)了解，「大象聲科」技術(shù)的理論基礎(chǔ)為CASA（計算機聽覺場景分析）+DNN（深度神經(jīng)網(wǎng)絡(luò)技術(shù)）。CASA 解決的問題是基于人的聽覺原理來實現(xiàn)聲源分離，該理論的奠基人汪德亮教授也是「大象聲科」的首席科學(xué)家和聯(lián)合創(chuàng)始人。公司通過將CASA和深度學(xué)習(xí)相結(jié)合，在業(yè)內(nèi)首家成功實現(xiàn)大規(guī)模商用級的噪音和人聲的分離，后續(xù)有望進一步解決雞尾酒會問題。（注：雞尾酒會問題是語音識別領(lǐng)域的痛點和難點，人們在雞尾酒會中交談，語音信號會重疊在一起，機器需要將它們分離成獨立的信號）

公司創(chuàng)始人兼CEO苗健彰向記者對比了傳統(tǒng)信號處理和基于深度學(xué)習(xí)的信號處理方式的差別——傳統(tǒng)的數(shù)字信號處理方式主要依據(jù)固定噪音特性和方向，通過濾波器對信號進行相應(yīng)的過濾和增強。但因為生活中的噪音不一定存在固定特性，并可能來自于各種方向反射，所以傳統(tǒng)方式或許無法徹底解決復(fù)雜噪聲環(huán)境中的問題。而CASA+DNN的方案是讓機器通過訓(xùn)練獲得與人類聽覺感知相似的機制，從而去認知周邊的聲場環(huán)境，在復(fù)雜場景中提取、識別人聲。

在技術(shù)產(chǎn)業(yè)化這一塊，「大象聲科」首先從“降噪”切入，一方面解決通訊過程中的噪音干擾問題，讓人們在復(fù)雜的現(xiàn)實噪聲場景中擁有更加清晰、更加私密的通話體驗；另一方面解決語音識別中噪聲干擾問題，讓機器在“聽清”之后聽得“更懂”。為此，公司推出了Vocplus智能語音增強和Vocplus Smart智能語音交互方案，目前已經(jīng)在手機、耳機、PC、對講機、VoIP、IoT等行業(yè)成功落地。

在研發(fā)過程中，苗健彰認為，把技術(shù)從理論進行工程落地轉(zhuǎn)化是最大的難點，其中將神經(jīng)網(wǎng)絡(luò)小型化和模型的泛化是決定深度學(xué)習(xí)能否應(yīng)用于實際產(chǎn)品中的重要環(huán)節(jié)。“大象聲科在這方面有一套獨特的技術(shù)，能夠在不損失精度的情況下，使得算法參數(shù)盡量少，計算速度盡量快，這也是為什么目前我們的深度學(xué)習(xí)降噪算法快速落地到像耳機這類可穿戴產(chǎn)品。另外，市面上已經(jīng)有上千萬臺設(shè)備搭載了公司的算法，幫助公司沉淀了大量數(shù)據(jù)。大象聲科將人耳的聽覺機理與深度學(xué)習(xí)相結(jié)合，也大幅提升了算法的泛化性能，形成了較高的技術(shù)壁壘。”他介紹。

相較而言，公司目前在手機、耳機等消費電子行業(yè)有比較多的應(yīng)用案例，這和行業(yè)本身的需求和規(guī)模相關(guān)。“現(xiàn)在中國絕大部分的手機品牌，比如小米、OPPO、vivo都已經(jīng)有使用「大象聲科」的通話降噪技術(shù)（Vocplus Telecom）以及游戲抗嘯叫技術(shù)（DHS）的量產(chǎn)案例。”苗健彰說。在前不久發(fā)布的華為FreeLace Pro耳機上，也搭載了公司的Vocplus AI三麥通話降噪方案。

此外，自去年以來的TWS耳機增長浪潮，也讓越來越多的耳機廠商逐漸采納以AI技術(shù)為主導(dǎo)的通話降噪方案。「大象聲科」是率先在藍牙耳機上落地AI語音降噪的公司，首個成功量產(chǎn)案例是OPPO Enco Q1 。并且，2020年「大象聲科」與漫步者合作，成功落地了第一個AI算法結(jié)合骨傳導(dǎo)sensor的通話降噪方案，可以讓TWS耳機在通話時完全屏蔽周圍噪音（包含人聲噪音在內(nèi)），實現(xiàn)私密性更強的通話體驗。

談及客戶方的具體考量維度，苗健彰介紹客戶主要會圍繞通話清晰度進行評價，在這方面，業(yè)內(nèi)有一套衡量通話降噪效果的客觀標(biāo)準3QUEST，測試指標(biāo)包括：S-MOS（人聲保留程度），N-MOS（噪音消除程度），G-MOS（綜合通話降噪性能），而公司由于采用較獨特的AI技術(shù)，在測評中得以展現(xiàn)優(yōu)勢。

在產(chǎn)業(yè)合作上，「大象聲科」目前已與Qualcomm，CEVA，Cirrus Logic，Infineon，Rockchip和BES等國內(nèi)外知名芯片廠商建立合作關(guān)系。其中值得一提的是，公司在2018年拿到了小米和高通的融資，并在之后和高通一起進行聯(lián)合技術(shù)推廣，這也為公司在市場拓展和品牌建設(shè)方面提供了一定幫助。在收費模式上，大象有按照license授權(quán)和按項目收費兩種方式，當(dāng)前l(fā)icense總裝機量在數(shù)千萬級別，今年的營收在數(shù)千萬元量級。

在未來的行業(yè)延展中，「大象聲科」計劃進一步完善整個語音技術(shù)鏈條，把應(yīng)用場景從近場拓展到遠場，為更多行業(yè)如助聽器、智能家居、會議系統(tǒng)、智能車載等帶來更精準更智能的語音解決方案。

團隊方面，公司創(chuàng)始人兼CEO苗健彰UBC軟件工程學(xué)碩士畢業(yè)，曾就職于IBM、RBC等500強企業(yè)，并在加拿大成功創(chuàng)辦過一家軟件公司。聯(lián)合創(chuàng)始人兼首席科學(xué)家汪德亮教授是計算機聽覺場景分析奠基人之一，也是全球首位將深度學(xué)習(xí)應(yīng)用于語音增強的科學(xué)家。聯(lián)合創(chuàng)始人兼CTO張學(xué)良多年從事語音分離、增強算法研發(fā)工作，是內(nèi)蒙古大學(xué)計算機學(xué)院教授。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

人工智能

人工智能

+關(guān)注

關(guān)注
1806

文章
48984

瀏覽量
248922
智能語音

智能語音

+關(guān)注

關(guān)注
11

文章
803

瀏覽量
49495
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5560

瀏覽量
122750

原文標(biāo)題：用深度學(xué)習(xí)改變語音信號處理，大象聲科讓機器像人耳一樣“聆聽”

文章出處：【微信號：MEMSensor，微信公眾號：MEMS】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

應(yīng)用深度學(xué)習(xí)變革傳統(tǒng)語音信號處理，讓機器擁有類似人耳一樣的聽覺感知能力

評論