編輯導(dǎo)語(yǔ):
隨著語(yǔ)音交互技術(shù)的日漸成熟,越來(lái)越多的智能硬件都選擇增加語(yǔ)音能力作為產(chǎn)品賣點(diǎn)之一。但是,設(shè)備在進(jìn)入語(yǔ)音交互工作狀態(tài)的時(shí)候,需要先進(jìn)行喚醒操作。
常見的喚醒語(yǔ)音交互的操作有按鍵或者觸屏形式,但是,為了進(jìn)一步降低學(xué)習(xí)成本和操作復(fù)雜度,也有不少的智能硬件選擇通過(guò)語(yǔ)音喚醒的方式來(lái)激活交互功能。
本文將綜合對(duì)比市面上各家提供的語(yǔ)音喚醒技術(shù)相關(guān)指標(biāo),可以幫助你快速掌握語(yǔ)音喚醒技術(shù)的情況。
一、語(yǔ)音喚醒技術(shù)的相關(guān)核心指標(biāo)
1、喚醒率
語(yǔ)音喚醒的主要目的既然是激活設(shè)備進(jìn)入交互工作狀態(tài),那么,喚醒率的高低就顯得額外重要了。理論上,最好的狀態(tài)就是我只要說(shuō)一次喚醒詞,設(shè)備就能立即響應(yīng)。不過(guò),受說(shuō)話人與設(shè)備距離、發(fā)音標(biāo)準(zhǔn)、噪聲等各種各樣的因素,實(shí)際工作中比較難達(dá)到次次響應(yīng)的完美工作狀態(tài)。
一般來(lái)說(shuō),在近距離的安靜場(chǎng)景下,市面上的技術(shù)都能夠做到喚醒率在95%以上。
不過(guò),消費(fèi)者的實(shí)際使用場(chǎng)景是較復(fù)雜的,因此,需要模擬不同的應(yīng)用場(chǎng)景進(jìn)行實(shí)測(cè),才能得到最后的喚醒率指標(biāo)。
2、誤喚醒率
指設(shè)備被非喚醒詞喚醒的概率,誤喚醒率越高,效果越不好。
大家在日常生活中可能會(huì)經(jīng)常碰到,放在家里的智能音箱,大晚上莫名其妙答一句“我在”,把人嚇個(gè)半死;還有如果家里用的智能電視,喚醒手機(jī)語(yǔ)音助手的時(shí)候,不是同一個(gè)喚醒詞,電視也會(huì)蹦出一句“我在”。
這就是典型的誤喚醒場(chǎng)景,一般用24小時(shí)被誤喚醒多少次來(lái)衡量。
3、響應(yīng)時(shí)長(zhǎng)
主要是指用戶說(shuō)完喚醒詞后,設(shè)備給出反饋的耗時(shí),一般越短越好。
而反饋的形式則比較多樣,可以通過(guò)語(yǔ)音應(yīng)答響應(yīng)、也可以通過(guò)亮屏或者指示燈閃爍響應(yīng)。統(tǒng)計(jì)來(lái)看,如果是亮屏或者指示燈閃爍響應(yīng),控制在200ms以內(nèi)用戶體驗(yàn)較好;如果是語(yǔ)音應(yīng)答響應(yīng),太快反而體驗(yàn)不好,一般控制在500ms左右更佳。
4、功耗
主要是針對(duì)電池供電設(shè)備,理論上越低越好,這樣,設(shè)備的使用時(shí)長(zhǎng)不會(huì)受到太大的影響。
因?yàn)閱拘训?a target="_blank">工作原理是會(huì)持續(xù)檢測(cè)聲音中是否包含喚醒詞的特定片段,所以,會(huì)持續(xù)耗電。
為了進(jìn)一步降低功耗,部分產(chǎn)品也會(huì)采取DSP來(lái)完成語(yǔ)音喚醒,再通過(guò)AP層兜底的模式,保證喚醒和功耗的均衡。
總結(jié):語(yǔ)音喚醒的技術(shù)指標(biāo),除了與算法相關(guān)之外,還與智能硬件的結(jié)構(gòu)設(shè)計(jì)、芯片算力、使用場(chǎng)景等息息相關(guān)。最后的實(shí)際效果,則應(yīng)以實(shí)際測(cè)試效果為準(zhǔn),參考下圖:

二、語(yǔ)音喚醒技術(shù)對(duì)比
該對(duì)比信息均從互聯(lián)網(wǎng)公開渠道獲取,相關(guān)信息來(lái)源于提供商官網(wǎng)公開信息,如其官網(wǎng)有更新,請(qǐng)以更新信息為準(zhǔn)。(PS:百度搜索關(guān)鍵詞“語(yǔ)音喚醒”)

三、喚醒詞的區(qū)別
喚醒詞的定義實(shí)際是比較廣泛,至少包含了四種使用場(chǎng)景:品牌喚醒詞(如,小飛小飛)、離線命令詞(如,我要聽周杰倫的歌)、云端命令詞(如,我要聽周杰倫的歌)、免喚醒詞(如,下一首、暫停)。這些使用場(chǎng)景,實(shí)際上都是使用了喚醒詞的原理,只是喚醒后執(zhí)行不同的動(dòng)作。
四、語(yǔ)音喚醒項(xiàng)目實(shí)施要點(diǎn)
1、喚醒詞評(píng)估
大部分服務(wù)商都提供了喚醒詞評(píng)估服務(wù),不過(guò),有部分服務(wù)商對(duì)喚醒詞有一定的限制。因此,在選擇喚醒詞的時(shí)候,需要充分考慮品牌、發(fā)音特點(diǎn)、詞語(yǔ)等因素,綜合確定最終的喚醒詞。
2、確認(rèn)測(cè)試環(huán)境和工具
以以往交付的喚醒項(xiàng)目來(lái)看,主要測(cè)試的環(huán)境包括:外噪場(chǎng)景測(cè)試、自噪場(chǎng)景測(cè)試、安靜場(chǎng)景測(cè)試和誤喚醒測(cè)試。
3、聲音采集
根據(jù)產(chǎn)品主要面向的使用人群,采集真人發(fā)音音頻。
示例:【某某投影儀音頻采集需求】
- 采集人數(shù)200人,總音頻2000句
- 男女比=1:1
- 一人10句
- 語(yǔ)速快:中:慢=1:3:1
- 年齡兒童:青年:中年=1:3:1
- 區(qū)域:北上廣深
- 普通話
4、測(cè)試音頻處理
包括去除破音的音頻、去除時(shí)長(zhǎng)>1.7s的測(cè)試音頻、音頻幅度歸一化。
5、數(shù)據(jù)記錄表
根據(jù)實(shí)測(cè)結(jié)果,如實(shí)填寫表格中對(duì)應(yīng)測(cè)試結(jié)果,完成項(xiàng)目驗(yàn)收。

如果需要更深入地咨詢了解,可添加筆者V:HolaAI,詳細(xì)交流。
審核編輯:符乾江
-
語(yǔ)音控制
+關(guān)注
關(guān)注
5文章
495瀏覽量
28664 -
語(yǔ)音交互
+關(guān)注
關(guān)注
3文章
304瀏覽量
28525
發(fā)布評(píng)論請(qǐng)先 登錄
小安AI語(yǔ)音板,“廣西表哥”強(qiáng)勢(shì)上線!

芯資訊|基于廣州唯創(chuàng)電子語(yǔ)音芯片的煙霧報(bào)警器語(yǔ)音方案技術(shù)解析

普強(qiáng)信息入選2024語(yǔ)音識(shí)別技術(shù)公司TOP30榜單
離線語(yǔ)音模組VC系列出廠固件使用教程——SDK開源?

谷歌“減法”新動(dòng)作:砍掉耳機(jī)按鍵喚醒朗讀功能

領(lǐng)先技術(shù)的語(yǔ)音識(shí)別芯片,探索NRK3502芯片的技術(shù)特點(diǎn)
語(yǔ)音識(shí)別技術(shù)的應(yīng)用與發(fā)展
ASR語(yǔ)音識(shí)別技術(shù)應(yīng)用
語(yǔ)音燈控新體驗(yàn),讓傳統(tǒng)開關(guān)實(shí)現(xiàn)智能化!

【電磁兼容技術(shù)案例分享】因喚醒線導(dǎo)致的CE電壓法測(cè)試超標(biāo)整改分析案例

干貨分享 | TSMaster—LIN 喚醒與休眠機(jī)制

HLK-V20支持用戶修改喚醒詞和命令詞 海凌科語(yǔ)音定制后臺(tái)系統(tǒng)上線

評(píng)論