在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

應(yīng)用深度學(xué)習(xí)變革傳統(tǒng)語音信號處理,讓機器擁有類似人耳一樣的聽覺感知能力

MEMS ? 來源:MEMS ? 2020-09-01 13:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

智能語音是人工智能技術(shù)的重要組成部分,包括聲音前端信號處理、語音識別、語義理解、自然語言處理、語音合成等細分領(lǐng)域。在技術(shù)的具體落地中,消費級智能硬件是最早顯示出市場潛力的賽道,從藍牙耳機到可穿戴設(shè)備再到智能家居,各種產(chǎn)品都離不開相關(guān)的智能語音技術(shù),而語音交互的第一步就是聽見,聲音前端信號處理的效果一定程度上制約了語音識別的效果,當(dāng)前也有一些公司正在解決這一讓各類產(chǎn)品“聽得更清晰”的問題。

36氪日前接觸到的「大象聲科」,是一家專注于機器聽覺的人工智能公司。該公司于2017年在深圳成立,致力于應(yīng)用深度學(xué)習(xí)變革傳統(tǒng)語音信號處理,讓機器擁有類似人耳一樣的聽覺感知能力。據(jù)了解,「大象聲科」技術(shù)的理論基礎(chǔ)為CASA(計算機聽覺場景分析)+DNN(深度神經(jīng)網(wǎng)絡(luò)技術(shù))。CASA 解決的問題是基于人的聽覺原理來實現(xiàn)聲源分離,該理論的奠基人汪德亮教授也是「大象聲科」的首席科學(xué)家和聯(lián)合創(chuàng)始人。公司通過將CASA和深度學(xué)習(xí)相結(jié)合,在業(yè)內(nèi)首家成功實現(xiàn)大規(guī)模商用級的噪音和人聲的分離,后續(xù)有望進一步解決雞尾酒會問題。(注:雞尾酒會問題是語音識別領(lǐng)域的痛點和難點,人們在雞尾酒會中交談,語音信號會重疊在一起,機器需要將它們分離成獨立的信號)

公司創(chuàng)始人兼CEO苗健彰向記者對比了傳統(tǒng)信號處理和基于深度學(xué)習(xí)的信號處理方式的差別——傳統(tǒng)的數(shù)字信號處理方式主要依據(jù)固定噪音特性和方向,通過濾波器對信號進行相應(yīng)的過濾和增強。但因為生活中的噪音不一定存在固定特性,并可能來自于各種方向反射,所以傳統(tǒng)方式或許無法徹底解決復(fù)雜噪聲環(huán)境中的問題。而CASA+DNN的方案是讓機器通過訓(xùn)練獲得與人類聽覺感知相似的機制,從而去認知周邊的聲場環(huán)境,在復(fù)雜場景中提取、識別人聲。

在技術(shù)產(chǎn)業(yè)化這一塊,「大象聲科」首先從“降噪”切入,一方面解決通訊過程中的噪音干擾問題,讓人們在復(fù)雜的現(xiàn)實噪聲場景中擁有更加清晰、更加私密的通話體驗;另一方面解決語音識別中噪聲干擾問題,讓機器在“聽清”之后聽得“更懂”。為此,公司推出了Vocplus智能語音增強和Vocplus Smart智能語音交互方案,目前已經(jīng)在手機、耳機、PC、對講機、VoIP、IoT等行業(yè)成功落地。

在研發(fā)過程中,苗健彰認為,把技術(shù)從理論進行工程落地轉(zhuǎn)化是最大的難點,其中將神經(jīng)網(wǎng)絡(luò)小型化和模型的泛化是決定深度學(xué)習(xí)能否應(yīng)用于實際產(chǎn)品中的重要環(huán)節(jié)。“大象聲科在這方面有一套獨特的技術(shù),能夠在不損失精度的情況下,使得算法參數(shù)盡量少,計算速度盡量快,這也是為什么目前我們的深度學(xué)習(xí)降噪算法快速落地到像耳機這類可穿戴產(chǎn)品。另外,市面上已經(jīng)有上千萬臺設(shè)備搭載了公司的算法,幫助公司沉淀了大量數(shù)據(jù)。大象聲科將人耳的聽覺機理與深度學(xué)習(xí)相結(jié)合,也大幅提升了算法的泛化性能,形成了較高的技術(shù)壁壘。”他介紹。

相較而言,公司目前在手機、耳機等消費電子行業(yè)有比較多的應(yīng)用案例,這和行業(yè)本身的需求和規(guī)模相關(guān)。“現(xiàn)在中國絕大部分的手機品牌,比如小米、OPPO、vivo都已經(jīng)有使用「大象聲科」的通話降噪技術(shù)(Vocplus Telecom)以及游戲抗嘯叫技術(shù)(DHS)的量產(chǎn)案例。”苗健彰說。在前不久發(fā)布的華為FreeLace Pro耳機上,也搭載了公司的Vocplus AI三麥通話降噪方案。

此外,自去年以來的TWS耳機增長浪潮,也讓越來越多的耳機廠商逐漸采納以AI技術(shù)為主導(dǎo)的通話降噪方案。「大象聲科」是率先在藍牙耳機上落地AI語音降噪的公司,首個成功量產(chǎn)案例是OPPO Enco Q1 。并且,2020年「大象聲科」與漫步者合作,成功落地了第一個AI算法結(jié)合骨傳導(dǎo)sensor的通話降噪方案,可以讓TWS耳機在通話時完全屏蔽周圍噪音(包含人聲噪音在內(nèi)),實現(xiàn)私密性更強的通話體驗。

談及客戶方的具體考量維度,苗健彰介紹客戶主要會圍繞通話清晰度進行評價,在這方面,業(yè)內(nèi)有一套衡量通話降噪效果的客觀標(biāo)準3QUEST,測試指標(biāo)包括:S-MOS(人聲保留程度),N-MOS(噪音消除程度),G-MOS(綜合通話降噪性能),而公司由于采用較獨特的AI技術(shù),在測評中得以展現(xiàn)優(yōu)勢。

在產(chǎn)業(yè)合作上,「大象聲科」目前已與Qualcomm,CEVACirrus Logic,Infineon,Rockchip和BES等國內(nèi)外知名芯片廠商建立合作關(guān)系。其中值得一提的是,公司在2018年拿到了小米和高通的融資,并在之后和高通一起進行聯(lián)合技術(shù)推廣,這也為公司在市場拓展和品牌建設(shè)方面提供了一定幫助。在收費模式上,大象有按照license授權(quán)和按項目收費兩種方式,當(dāng)前l(fā)icense總裝機量在數(shù)千萬級別,今年的營收在數(shù)千萬元量級。

在未來的行業(yè)延展中,「大象聲科」計劃進一步完善整個語音技術(shù)鏈條,把應(yīng)用場景從近場拓展到遠場,為更多行業(yè)如助聽器、智能家居、會議系統(tǒng)、智能車載等帶來更精準更智能的語音解決方案。

團隊方面,公司創(chuàng)始人兼CEO苗健彰UBC軟件工程學(xué)碩士畢業(yè),曾就職于IBM、RBC等500強企業(yè),并在加拿大成功創(chuàng)辦過一家軟件公司 。聯(lián)合創(chuàng)始人兼首席科學(xué)家汪德亮教授是計算機聽覺場景分析奠基人之一,也是全球首位將深度學(xué)習(xí)應(yīng)用于語音增強的科學(xué)家。聯(lián)合創(chuàng)始人兼CTO張學(xué)良多年從事語音分離、增強算法研發(fā)工作,是內(nèi)蒙古大學(xué)計算機學(xué)院教授。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    48984

    瀏覽量

    248922
  • 智能語音
    +關(guān)注

    關(guān)注

    11

    文章

    803

    瀏覽量

    49495
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5560

    瀏覽量

    122750

原文標(biāo)題:用深度學(xué)習(xí)改變語音信號處理,大象聲科讓機器像人耳一樣“聆聽”

文章出處:【微信號:MEMSensor,微信公眾號:MEMS】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    明遠智睿SSD2351開發(fā)板:語音機器人領(lǐng)域的變革力量

    的四核1.4GHz處理器具備強勁的運算性能,能夠高效處理語音機器人運行過程中的復(fù)雜任務(wù)。語音識別和合成需要大量的計算資源,該
    發(fā)表于 05-28 11:36

    仿生傳感器:機器擁有“生命感知”的神奇科技

    在科幻電影中,機器人通過皮膚感知溫度、用“鼻子”識別氣味、用“耳朵”捕捉聲音的場景曾令人驚嘆。如今,這些“超能力”正通過仿生傳感器逐漸走進現(xiàn)實。仿生傳感器,這融合生物學(xué)與工程學(xué)的創(chuàng)新
    的頭像 發(fā)表于 04-28 17:25 ?334次閱讀

    人形機器人像人一樣感知,這家國產(chǎn)芯片公司選擇從信號鏈入手

    電子發(fā)燒友網(wǎng)報道(文/吳子鵬)人形機器人的感知系統(tǒng),作為其與物理世界交互的關(guān)鍵窗口,極大程度上決定了機器人的智能化水平與應(yīng)用價值。借助多模態(tài)傳感器融合,人形機器人有望實現(xiàn)比肩甚至超越人
    的頭像 發(fā)表于 04-10 00:09 ?2112次閱讀
    <b class='flag-5'>讓</b>人形<b class='flag-5'>機器</b>人像人<b class='flag-5'>一樣</b>去<b class='flag-5'>感知</b>,這家國產(chǎn)芯片公司選擇從<b class='flag-5'>信號</b>鏈入手

    海伯森技術(shù)推動機器感知能力邁向新高度

    的“感知神經(jīng)元”,公司自主研發(fā)的六維力扭矩傳感器已批量應(yīng)用于20余家頭部機器人企業(yè),為人形機器人、協(xié)作機器人及高端工業(yè)場景提供克級力控精度,推動機器
    的頭像 發(fā)表于 03-10 11:07 ?560次閱讀

    語音信號經(jīng)過放大器到TLC320AD50C,放大倍數(shù)般多少倍?

    語音信號經(jīng)過放大器到TLC320AD50C,放大倍數(shù)般多少倍?還有同相與反向信號定要一樣大小嗎?
    發(fā)表于 02-17 08:24

    為什么要費這么大勁機器人像人一樣,而不是更實用的形態(tài)?

    為什么要費這么大勁機器人像人一樣,而不是更實用的形態(tài)? 將機器人設(shè)計成人形(即仿人機器人)的意義可以從多個角度探討,涉及技術(shù)、社會、心理和
    的頭像 發(fā)表于 02-10 10:03 ?371次閱讀

    40個激光雷達!蘋果布局機器感知系統(tǒng),碰撞降低63.7%

    機器感知系統(tǒng)。ARMOR系統(tǒng)的創(chuàng)新之處在于采用 分布式感知方案 。研究團隊在機器人的手臂和手掌上戰(zhàn)略性地布置了 40個小型ToF激光雷達傳感器 ,每邊手臂20個。這些傳感器體積小巧
    的頭像 發(fā)表于 01-22 17:58 ?635次閱讀
    40個激光雷達!蘋果布局<b class='flag-5'>機器</b>人<b class='flag-5'>感知</b>系統(tǒng),<b class='flag-5'>讓</b>碰撞降低63.7%

    傳統(tǒng)機器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

    用于開發(fā)生物學(xué)數(shù)據(jù)的機器學(xué)習(xí)方法。盡管深度學(xué)習(xí)般指神經(jīng)網(wǎng)絡(luò)算法)是個強大的工具,目前也非常
    的頭像 發(fā)表于 12-30 09:16 ?1165次閱讀
    <b class='flag-5'>傳統(tǒng)</b><b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人大模型

    。 多模態(tài)融合的創(chuàng)新與突破 機器人控制技術(shù)的另個重要突破在于多模態(tài)大模型的應(yīng)用。相比于僅通過文字進行人機交互的傳統(tǒng)方法,現(xiàn)代機器人能夠融合視覺、聲音、定位等多模態(tài)輸入信息,為任務(wù)執(zhí)行
    發(fā)表于 12-29 23:04

    【「具身智能機器人系統(tǒng)」閱讀體驗】+初品的體驗

    解決許多技術(shù)的和非技術(shù)的挑戰(zhàn),如提高智能體的自主性、處理復(fù)雜環(huán)境互動的能力及確保行為的倫理和安全性。 未來的研究需要將視覺、語音和其他傳感技術(shù)與機器人技術(shù)相結(jié)合,以探索更加先進的知識表
    發(fā)表于 12-20 19:17

    語音識別與自然語言處理的關(guān)系

    在人工智能的快速發(fā)展中,語音識別和自然語言處理(NLP)成為了兩個重要的技術(shù)支柱。語音識別技術(shù)使得機器能夠理解人類的語音,而自然語言
    的頭像 發(fā)表于 11-26 09:21 ?1474次閱讀

    語音識別機器人的工作原理

    語音識別機器人的工作原理主要基于系列復(fù)雜的技術(shù)流程,包括信號采集、預(yù)處理、特征提取、聲學(xué)模型匹配、語言模型預(yù)測以及最終的解碼輸出。
    的頭像 發(fā)表于 10-25 09:25 ?1063次閱讀

    基于MATLAB的數(shù)字濾波器語音信號去噪

    1.1設(shè)計目標(biāo) (1)利用Windows下的錄音或其他軟件,采集語音信號,名為“add.wav”,利用MATLAB中的audioread命令對該信號進行采樣; (2)根據(jù)語音信號
    的頭像 發(fā)表于 10-10 18:22 ?1969次閱讀
    基于MATLAB的數(shù)字濾波器<b class='flag-5'>語音信號</b>去噪

    音頻信號通常包括哪些聲音信號

    音頻信號是指通過聲音傳輸?shù)?b class='flag-5'>信號,它包含了各種不同的聲音信號。以下是對音頻信號中常見的聲音信號的介紹:
    的頭像 發(fā)表于 08-25 15:43 ?2871次閱讀

    FPGA在人工智能中的應(yīng)用有哪些?

    :FPGA在語音識別領(lǐng)域也有廣泛應(yīng)用。通過算法優(yōu)化和硬件自適應(yīng)能力,F(xiàn)PGA可以實現(xiàn)高效的語音信號處理和識別,提供低延時、高精度的語音識別系
    發(fā)表于 07-29 17:05
    主站蜘蛛池模板: 激情五月婷婷色 | 欧美经典三级春潮烂漫海棠红 | 欧美成人看片一区二区三区 | 亚洲 欧美 精品 | 二区久久国产乱子伦免费精品 | 国产精品成人免费观看 | 婷婷开心激情 | 国内自拍露脸普通话对白在线 | 天天躁狠狠躁夜夜躁 | 国内精品久久久久影院男同志 | 精品视频一区在线观看 | 国产精品资源在线观看网站 | 日本高清视频色www在线观看 | 黄视频在线观看免费 | a一级日本特黄aaa大片 | 国产免费人人看大香伊 | 婷婷中文网 | 男女视频在线播放 | 婷婷开心六月久久综合丁香 | 丁香花在线视频观看免费 | 天天噜天天射 | 日韩精品一级a毛片 | 国产叼嘿视频网站在线观看 | 久久影视一区 | 亚洲一区二区在线免费观看 | 亚洲区在线播放 | 色人人 | 韩国床戏合集三小时hd中字 | 午夜影剧院 | 91大神免费视频 | 日韩午夜在线视频不卡片 | 四虎国产精品成人永久免费影视 | 色色免费 | 日本一区二区高清免费不卡 | 午夜一级毛片不卡 | 天天干天天干天天天天天天爽 | 性欧美一区| 欧美综合影院 | 精品女同同性视频很黄很色 | 四虎网址 | 丁香五月网久久综合 |