資料介紹
隨著DSP技術的進步,計算能力更強、功耗更低和體積更小的DSP已經出現,使3G手機上植入更精確更復雜的自動語音識別(ASR)功能成為可能。目前,基本ASR應用可以分成三大類:1. 語音-文本轉換(語音輸入);2. 講者識別;3. 語音命令控制(語音控制)。
這三類功能包含了3G所需的眾多ASR性能。語音-文本轉換的典型實例是語音撥號和電子郵件聽寫。講者識別功能可以通過語音識別安全地讀出存儲器中的個人數據,從而滿足信用卡定購和銀行服務等保密性高的應用需要。語音命令控制功能包括連接語音擴展標記語言(VXML)網站內容的語音接口,它支持財經服務與目錄助理等業務。目前VXML被用于規范網站內容的語音標簽。
語音識別的兩種方法
3G手機的ASR應用設計可分為兩類,即以終端為中心和以客戶/服務器為中心的應用。如圖1所示為以終端為中心的設計方法,3G手機(終端)執行整個語音識別過程并送出識別結果。在圖2所示的客戶/服務器方法中,終端只是執行預處理特征提取,然后通過一個誤碼受保護的數據信道將這些參數發送給中心服務器,中心服務器最終完成語音識別。如果采用以客戶/服務器為中心的設計方法,3G手機應使用數據信道而非移動信道來將語音發送給服務器進行識別,因為移動信道所用的低速率語音編碼會嚴重影響語音識別的性能。
各種ASR系統的差異主要體現在詞匯量上。一個簡單的網絡設備可能只需要16字的詞庫就能實現所要求的語音識別功能,而3G移動手機則需要更大的專業詞庫。這些詞匯可以跟講者相關(訓練語音識別設備使之熟悉用戶的聲音特征)或跟講者無關(語音識別設備可以識別任何人的聲音),DSP的計算負荷就隨著詞匯量和訓練數據的增加而增大。
例如,根據隱性馬爾可夫模型(HMM)可以分析一個典型的跟講者無關的100條命令識別的應用實例。假設HMM模型從左到右沒有跳躍地順序擺放,共有6個狀態、5個具有對角協方差的混合高斯分布,包含39個特征(13嘜-頻率對數系數或MFCC,及其一階和二階差分),具有16位精度,那么,HMM聲學模型的大小就是100×5×5×(39+2)×2=240kB。
為了實現輸入語音樣本差分、窗口截獲、MFCC抽取、概率計算和維特比搜索等運算的實時性,典型情況下需要消耗DSP的1千萬個乘法-累加周期(MMAC)。對于連續語音識別來說,上千個三音素模型和多種語法模型需要更多的存儲空間,也需要更快的DSP處理速度。
因此,移動電話中ASR系統的成敗很大程度上取決于DSP的功能和設計。第三代系統本身就需要比第二代系統更強性能的DSP,而增加ASR功能就對DSP提出了更高的要求。從結構角度看,對DSP性能的要求是處理速度快、功耗低和代碼密度高。
采用高速DSP是關鍵
由于系統要實時對語音進行處理和取樣,因此語音識別系統需要具有巨大的計算能力。下面的數字和計算假設采用的是圍繞終端的設計方法。如果將DSP計算資源的20%分配給一個10MMAC的語音識別系統使用,那么就需要一個具有50MMAC的DSP才能滿足這一功能需要,并可提供足夠的空間執行3G手機所需的其它DSP任務,如處理軟貓。如果采用較慢的DSP,如25MMAC的DSP,那么詞匯表中的命令數量就要減半,或減少HMM參數,這樣會降低整個系統性能。
DSP的速度決定了語音識別系統的復雜性和性能。舉例來說,如果一個基本的跟講者無關的連續語音識別系統需要100MMAC,DSP計算資源的50%用于滿足3G手機的其它DSP任務的需求,那么DSP的處理速度就需要達到200MMAC。
成本、性能和效率的折衷
DSP的速度越快,就越便于利用現代的HMM技術,如信道匹配和聲域匹配技術,因此,理論上講,DSP速度越快,ASR系統的性能就越好。然而,并行處理方法在提高ASR系統吞吐量中也扮演著重要角色。例如,一個具有4 ALU(算術邏輯單元)的200MHz DSP比只有1 ALU但運行于400MHz的DSP具有更高的吞吐量。根據具體應用的不同,2到3個單ALU DSP提供的性能與一個具有4 ALU的DSP相仿。相對一個具有4 ALU的DSP處理器方案來說,多個單ALU的DSP會提高手機的成本,因此對于適銷對路產品要充分權衡成本與性能之間的折衷。
總之,當比較一個600MHz的單ALU DSP和一個300MHz但有4 ALU的DSP時,設計工程師始終應把握的最終目標是高效的運算吞吐量,具有多個ALU的DSP也許是最好的解決方案。
性能與功耗
頂級性能的DSP采用并行結構來獲得最佳的性能空間。有個著名的平衡型并行結構StarCore SC140就采用了指令級并行結構,它具有4個并行ALU以及一個稱為變長執行集(VLES)的改進型甚長指令字模型。VLES的優點在于它支持在內存中完成高效的指令調度、執行和打包。它能通過一個指令隊列對前端提供反饋,并通過調度器控制后端,因此除非需要執行計算,VLES處理一般不消耗功率。
在并行VLES結構中,一些特殊指令需要成組以避免空操作(Nop),由于減少了時鐘周期,處理時間也相應減少了。比較而言,在甚長指令字計算中,所有執行步驟都必須按順序排列,因此在一個8字節的執行集甚至是1字節數據時,系統就需要7個占位符(placeholder)或Nop。
由于VLES結構不需要Nop,VLES設計中的復雜性從硬件或編程器轉移到了編譯器。由于每個周期都充滿了數據,因此每個周期就具有更高的效率,從而也提高了電源與內存的使用效率。
電源管理
由于ASR系統需要連續處理語音數據,會使DSP成為消耗電能的主要部件,因此高效利用電源對設備成功走向市場至關重要。
在高性能DSP中,選擇16位指令集而非32位指令集能提高代碼密度,進一步減少對內存、功耗和體積的需求,一部分原因是由于更短的16位指令集可以減少寄存器和數據線數量。例如在ASR應用中,存儲的詞匯量可能達到2.5MB(對于1024簇的三音素狀態,5個合成和39個參數來說,聲學HMM狀態模型是400KB;一本有1萬個三態三音素代碼本是60KB;三音素狀態轉移概率矩陣是500KB;一個具有40個雜亂態2萬字的雙字母組是1.6MB)。如果DSP具有高的代碼密度,能為ASR系統提供固定數量的存儲器,那么就可以獲得更好更大的聲學和語言模型。
這三類功能包含了3G所需的眾多ASR性能。語音-文本轉換的典型實例是語音撥號和電子郵件聽寫。講者識別功能可以通過語音識別安全地讀出存儲器中的個人數據,從而滿足信用卡定購和銀行服務等保密性高的應用需要。語音命令控制功能包括連接語音擴展標記語言(VXML)網站內容的語音接口,它支持財經服務與目錄助理等業務。目前VXML被用于規范網站內容的語音標簽。
語音識別的兩種方法
3G手機的ASR應用設計可分為兩類,即以終端為中心和以客戶/服務器為中心的應用。如圖1所示為以終端為中心的設計方法,3G手機(終端)執行整個語音識別過程并送出識別結果。在圖2所示的客戶/服務器方法中,終端只是執行預處理特征提取,然后通過一個誤碼受保護的數據信道將這些參數發送給中心服務器,中心服務器最終完成語音識別。如果采用以客戶/服務器為中心的設計方法,3G手機應使用數據信道而非移動信道來將語音發送給服務器進行識別,因為移動信道所用的低速率語音編碼會嚴重影響語音識別的性能。
各種ASR系統的差異主要體現在詞匯量上。一個簡單的網絡設備可能只需要16字的詞庫就能實現所要求的語音識別功能,而3G移動手機則需要更大的專業詞庫。這些詞匯可以跟講者相關(訓練語音識別設備使之熟悉用戶的聲音特征)或跟講者無關(語音識別設備可以識別任何人的聲音),DSP的計算負荷就隨著詞匯量和訓練數據的增加而增大。
例如,根據隱性馬爾可夫模型(HMM)可以分析一個典型的跟講者無關的100條命令識別的應用實例。假設HMM模型從左到右沒有跳躍地順序擺放,共有6個狀態、5個具有對角協方差的混合高斯分布,包含39個特征(13嘜-頻率對數系數或MFCC,及其一階和二階差分),具有16位精度,那么,HMM聲學模型的大小就是100×5×5×(39+2)×2=240kB。
為了實現輸入語音樣本差分、窗口截獲、MFCC抽取、概率計算和維特比搜索等運算的實時性,典型情況下需要消耗DSP的1千萬個乘法-累加周期(MMAC)。對于連續語音識別來說,上千個三音素模型和多種語法模型需要更多的存儲空間,也需要更快的DSP處理速度。
因此,移動電話中ASR系統的成敗很大程度上取決于DSP的功能和設計。第三代系統本身就需要比第二代系統更強性能的DSP,而增加ASR功能就對DSP提出了更高的要求。從結構角度看,對DSP性能的要求是處理速度快、功耗低和代碼密度高。
采用高速DSP是關鍵
由于系統要實時對語音進行處理和取樣,因此語音識別系統需要具有巨大的計算能力。下面的數字和計算假設采用的是圍繞終端的設計方法。如果將DSP計算資源的20%分配給一個10MMAC的語音識別系統使用,那么就需要一個具有50MMAC的DSP才能滿足這一功能需要,并可提供足夠的空間執行3G手機所需的其它DSP任務,如處理軟貓。如果采用較慢的DSP,如25MMAC的DSP,那么詞匯表中的命令數量就要減半,或減少HMM參數,這樣會降低整個系統性能。
DSP的速度決定了語音識別系統的復雜性和性能。舉例來說,如果一個基本的跟講者無關的連續語音識別系統需要100MMAC,DSP計算資源的50%用于滿足3G手機的其它DSP任務的需求,那么DSP的處理速度就需要達到200MMAC。
成本、性能和效率的折衷
DSP的速度越快,就越便于利用現代的HMM技術,如信道匹配和聲域匹配技術,因此,理論上講,DSP速度越快,ASR系統的性能就越好。然而,并行處理方法在提高ASR系統吞吐量中也扮演著重要角色。例如,一個具有4 ALU(算術邏輯單元)的200MHz DSP比只有1 ALU但運行于400MHz的DSP具有更高的吞吐量。根據具體應用的不同,2到3個單ALU DSP提供的性能與一個具有4 ALU的DSP相仿。相對一個具有4 ALU的DSP處理器方案來說,多個單ALU的DSP會提高手機的成本,因此對于適銷對路產品要充分權衡成本與性能之間的折衷。
總之,當比較一個600MHz的單ALU DSP和一個300MHz但有4 ALU的DSP時,設計工程師始終應把握的最終目標是高效的運算吞吐量,具有多個ALU的DSP也許是最好的解決方案。
性能與功耗
頂級性能的DSP采用并行結構來獲得最佳的性能空間。有個著名的平衡型并行結構StarCore SC140就采用了指令級并行結構,它具有4個并行ALU以及一個稱為變長執行集(VLES)的改進型甚長指令字模型。VLES的優點在于它支持在內存中完成高效的指令調度、執行和打包。它能通過一個指令隊列對前端提供反饋,并通過調度器控制后端,因此除非需要執行計算,VLES處理一般不消耗功率。
在并行VLES結構中,一些特殊指令需要成組以避免空操作(Nop),由于減少了時鐘周期,處理時間也相應減少了。比較而言,在甚長指令字計算中,所有執行步驟都必須按順序排列,因此在一個8字節的執行集甚至是1字節數據時,系統就需要7個占位符(placeholder)或Nop。
由于VLES結構不需要Nop,VLES設計中的復雜性從硬件或編程器轉移到了編譯器。由于每個周期都充滿了數據,因此每個周期就具有更高的效率,從而也提高了電源與內存的使用效率。
電源管理
由于ASR系統需要連續處理語音數據,會使DSP成為消耗電能的主要部件,因此高效利用電源對設備成功走向市場至關重要。
在高性能DSP中,選擇16位指令集而非32位指令集能提高代碼密度,進一步減少對內存、功耗和體積的需求,一部分原因是由于更短的16位指令集可以減少寄存器和數據線數量。例如在ASR應用中,存儲的詞匯量可能達到2.5MB(對于1024簇的三音素狀態,5個合成和39個參數來說,聲學HMM狀態模型是400KB;一本有1萬個三態三音素代碼本是60KB;三音素狀態轉移概率矩陣是500KB;一個具有40個雜亂態2萬字的雙字母組是1.6MB)。如果DSP具有高的代碼密度,能為ASR系統提供固定數量的存儲器,那么就可以獲得更好更大的聲學和語言模型。
下載該資料的人也在下載
下載該資料的人還在閱讀
更多 >
- Sitara Linux ALSA DSP麥克風陣列語音識別
- 基于DSP的車載語音識別系統方案設計
- 基于DTW算法語音識別系統仿真及DSP實現
- 基于DSP的語音分析系統附錄 8次下載
- 基于性能影響因素分析的語音識別平臺體系結構 20次下載
- 基于改進長短時記憶網絡的兒童語音情感識別模型 14次下載
- 淺談DSP技術的應用 28次下載
- 如何在系統中選擇合適的DSP芯片 31次下載
- 基于DSP的3G手機語音識別應用分析 1次下載
- 嵌入式與DSP的語音識別機器人研究 17次下載
- 基于ADSP2181的語音識別模塊 120次下載
- 基于DSP的語音識別計算器設計
- 基于TMS320C6711 DSP的非特定人、孤立詞語音識別
- 基于嵌入式與DSP的語音識別機器人研究
- 遺傳算法中選擇交叉策略的改進
- 基于JuliUS語音識別引擎實現機器人孤立詞語音識別系統的設計 1809次閱讀
- 語音識別系統功能_語音識別系統的應用 5694次閱讀
- 語音識別芯片的原理_語音識別芯片有哪些 5311次閱讀
- 一文解讀語音識別的運行原理 3949次閱讀
- Zynq在sdk中選擇lwip模板的參數優化 6239次閱讀
- 語音識別技術的發展歷程,語音識別是如何工作的?語音識別資料概述 1w次閱讀
- 語音識別技術的發展及難點分析 2.3w次閱讀
- 語音識別技術是什么_語音識別技術應用領域介紹 1.6w次閱讀
- 3G手機語音識別的兩種方法分析 1408次閱讀
- 語音識別技術原理全面解析 1.2w次閱讀
- 一種基于DSP的漢字語音識別系統設計 3366次閱讀
- 語音識別技術的應用及發展 2346次閱讀
- 基于DSP的語音識別系統的實現及分析 9988次閱讀
- 智能手機的超性能語音識別技術 1372次閱讀
- 如何關閉word語音識別 (數據丟失) 5179次閱讀
下載排行
本周
- 1DC電源插座圖紙
- 0.67 MB | 3次下載 | 免費
- 2AN-1267: 使用ADSP-CM408F ADC控制器的電機控制反饋采樣時序
- 1.41MB | 3次下載 | 免費
- 3AN158 GD32VW553 Wi-Fi開發指南
- 1.51MB | 2次下載 | 免費
- 4AN148 GD32VW553射頻硬件開發指南
- 2.07MB | 1次下載 | 免費
- 5AN111-LTC3219用戶指南
- 84.32KB | 次下載 | 免費
- 6AN153-用于電源系統管理的Linduino
- 1.38MB | 次下載 | 免費
- 7AN-283: Σ-Δ型ADC和DAC[中文版]
- 677.86KB | 次下載 | 免費
- 8SM2018E 支持可控硅調光線性恒流控制芯片
- 402.24 KB | 次下載 | 免費
本月
- 1ADI高性能電源管理解決方案
- 2.43 MB | 450次下載 | 免費
- 2免費開源CC3D飛控資料(電路圖&PCB源文件、BOM、
- 5.67 MB | 138次下載 | 1 積分
- 3基于STM32單片機智能手環心率計步器體溫顯示設計
- 0.10 MB | 130次下載 | 免費
- 4使用單片機實現七人表決器的程序和仿真資料免費下載
- 2.96 MB | 44次下載 | 免費
- 5美的電磁爐維修手冊大全
- 1.56 MB | 24次下載 | 5 積分
- 6如何正確測試電源的紋波
- 0.36 MB | 18次下載 | 免費
- 7感應筆電路圖
- 0.06 MB | 10次下載 | 免費
- 8萬用表UT58A原理圖
- 0.09 MB | 9次下載 | 5 積分
總榜
- 1matlab軟件下載入口
- 未知 | 935121次下載 | 10 積分
- 2開源硬件-PMP21529.1-4 開關降壓/升壓雙向直流/直流轉換器 PCB layout 設計
- 1.48MB | 420062次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233088次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費下載
- 340992 | 191367次下載 | 10 積分
- 5十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183335次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81581次下載 | 10 積分
- 7Keil工具MDK-Arm免費下載
- 0.02 MB | 73810次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65988次下載 | 10 積分
評論