“Hey NXP”、”哈啰恩智浦”……一聲又一聲的問候在寧靜的辦公室里格外惹人注目,原來是恩智浦公司又一嘔心瀝血的得意新作——智能語音技術(VIT)。
智能語音技術(Voice Intelligent Technology – VIT)基于最先進的深度學習和語音識別技術,是一款完整的喚醒詞/語音命令解決方案。
VIT在MCUXpresso SDK中支持的恩智浦設備上免費提供,目前已經可以支持英語,而中文、土耳其語、西班牙語等其他語言也正如火如荼地開發測試當中。
VIT功能包括
喚醒詞引擎(Wake Word Engine - WWE):它使用了訓練所需要并且已記錄的觸發詞文件。
在訓練階段使用數據增強技術來整合數據集中的可變性。
利用神經網絡分類器來確定提取的音素序列是否與目標關鍵字對應。
不需要音頻數據集的語音命令引擎(Voice Commands Engine - VCE)。
目標語音命令在脫機過程中被轉換為單詞符號序列,VCE在運行時確定提取的音素序列是否對應于特定的單詞符號序列以及命令。
一個模型可以支持從大量詞匯當中所挑選的30個語音命令。
簡而言之VIT可以
通過Text2Model工具創建的自定義命令
自定義觸發字選項
低延遲檢測(<200ms)
VIT現已經支持的平臺有
i.MX RT600系列:Cortex-M33內核,HiFi4 DSP協處理器,評估板為MIMXRT685-EVK
i.MX RT1060系列:Cortex-M7內核,評估板為MIMXRT1060-EVK
VIT可以利用語音服務來喚醒并控制物聯網裝置或家用設備。目前的VIT版本可以支持喚醒詞以及利用Text2Model工具所產生的語音命令,如下圖所示↓↓↓
喚醒詞模型是從關鍵詞檔案數據庫所創建,而語音命令模型則是由Text2Model工具所產生。目前SDK中所內建的VIT函式庫可以偵測 “Hey NXP” 關鍵詞以及12個在VIT_Voice_Commands.h當中所預設的語音命令。
這次VIT的發布包含了以下的部分:
Lib/libVIT_PLATFORM_VERSION.a :平臺可以選HIFI4或Cortex-M7
Lib/VIT.h :描述VIT公用的API庫
Lib/VIT_Model.h :VIT模型檔案包含了喚醒詞和語音命令的描述
VIT_Voice_Commands.h :列舉VIT函式庫所支持的語音命令
Lib/Inc :涵蓋VIT公用接口定義的文件夾
ExApp/VIT_ExApp.c :VIT范例
VIT提供豐富API以供使用者操作:
VIT_SetModel:儲存VIT模塊的地址,并確認此模塊是否能被VIT函式庫所支持
VIT_GetMemoryTable:通知軟件應用程序VIT函式所需要的內存。共定義四種不同的內存區塊,Fast data / Slow data / fast coefficient /Temporary or scratch
VIT_GetInstanceHandle:設置并初始化VIT,所有的內存都被映像到子模塊所需的緩沖區
VIT_SetControlParameters:設置或修改VIT的控制參數
VIT_Process:分析音頻以辨識是喚醒詞或語音命令
VIT_GetVoiceCommandFound:VIT讀取命令編號與名稱
VIT_GetModelInfo:輔助API,用來取得VIT模塊的訊息
VIT_ResetInstance:輔助API,用來重置VIT模塊
VIT_GetControlParameters:輔助API,用來取得VIT的控制參數
VIT_GetStatusParameters:輔助API,用來取得VIT的狀態參數
以下為簡單的API調用流程↓↓↓
原文標題:免費提供!VIT智能語音技術:恩智浦深度學習應用又一得意之作!
文章出處:【微信公眾號:NXP客棧】歡迎添加關注!文章轉載請注明出處。
-
恩智浦
+關注
關注
14文章
5974瀏覽量
115546 -
智能語音
+關注
關注
11文章
801瀏覽量
49475 -
深度學習
+關注
關注
73文章
5558瀏覽量
122719
原文標題:免費提供!VIT智能語音技術:恩智浦深度學習應用又一得意之作!
文章出處:【微信號:NXP客棧,微信公眾號:NXP客棧】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論