背景介紹
人體會產生豐富的生物信號,這些信號可以被人體檢測、數字化、分析并與外界設備交互。其中,人類的語音尤其具有豐富的時域、頻域和幅度信息傳輸能力。這種豐富的信息承載能力使聲音成為生物通信、人機交互(HMI)和物聯網(IoT)應用(包括智能家居、遠程控制、身份識別和語音系統)的重要組成部分。然而,基于空氣振動的語音通信容易受到背景噪聲(如路邊、商場、車站等嘈雜環境)和聲學介質(如火災、醫院、水下等特殊場景)的干擾和阻礙。此外,發聲過程依賴于器官的協調系統,任何因肌萎縮側索硬化癥(ALS)、中風、帕金森病或喉癌等疾病引起的損傷都會嚴重影響語音清晰度和識別效率。為了應對這些挑戰,研究人員開發了先進的降噪算法和多麥克風系統來增強語音處理能力。然而,這些解決方案的有效性受到聲音信號質量和多特征參數復雜性的限制。例如,單麥克風系統無法捕捉空間特征,難以提供高信噪比的音頻信號。雖然多麥克風系統和相關算法可以改善語音信號處理,但它們需要復雜的工程設計并占用更多空間。
最近,基于面部和嘴唇運動的視覺語音識別已成為一種在嘈雜環境中增強語音感知的方法。雖然這種方法可以在具有挑戰性的聲學條件下提高語音感知質量,但它需要額外的攝像頭,這增加了系統的復雜性并降低了實用性。近年來,直接監測面部運動狀態的可連接傳感器作為無聲語音識別的解決方案引起了人們的關注。雖然面部特征可以在一定程度上補充音頻信號,但它們在捕捉音高、音色和聲音強度等聲學參數方面存在很大的局限性。相反,將傳感器直接放置在發聲器官區域是一種實現全面聲音信息收集的有效方法。用于監測聲音信號的傳統可穿戴設備通常使用綁帶或粘性貼片附著在身體上。然而,它們的剛性和扁平形狀限制了實際應用。柔性材料和傳感技術的發展為隱形皮膚可穿戴設備鋪平了道路。目前,安裝在發聲器官中的柔性傳感技術主要包括石墨烯、柔性表面肌電圖電極、壓阻和摩擦電。與傳統的剛性麥克風相比,這些技術佩戴更舒適,可以無縫融入日常活動中。盡管這些傳感器有諸多優勢,但它們通常依賴于有線硬件,限制了它們在日常使用中的適應性。
為了克服這些挑戰,集成信號處理和傳輸單元的柔性可穿戴設備對于充分利用各種機電特性的潛力至關重要。微機電系統 (MEMS) 制造技術的進步為改善可穿戴設備的集成帶來了希望。一項值得注意的創新是將商用 MEMS 加速度計芯片整合到可穿戴設備中,從而能夠連續監測機械聲音信號,例如語音、吞咽、呼吸和心臟運動。然而,目前的傳感器無法滿足寬頻帶范圍和平坦度的要求,限制了信號頻譜的能量分布。此外,檢測皮膚加速度只能提供肌肉運動模式數據,而忽略了發聲器官的關鍵振動信息。由于缺乏生物特征信息,在監測小幅度肌肉運動時,機械聲音信號相對較弱。這種限制對于皮膚組織較厚(例如甲狀腺腫大)或喉部受傷的用戶尤其不友好。因此,有必要開發一種新的便攜式語音交互系統來解決這些問題并提高用戶體驗和HMI。
本文亮點
1. 本工作提出了一種可穿戴無線柔性貼膚聲學傳感器(SAAS),能夠捕捉發聲器官的振動和皮膚運動,從而實現惡劣聲學環境下的語音識別和人機交互(HMI)。
2. 該系統采用壓電微機械超聲換能器(PMUT),具有高靈敏度(-198 dB)、寬帶寬(10 Hz-20 kHz)和優異的平坦度(±0.5 dB)等特點。柔性封裝提高了佩戴時的舒適性和適應性,同時與殘差網絡(ResNet)架構的集成顯著提高了喉部語音特征的分類,準確率超過 96%。
3. 在多個 HMI 場景中展示了 SAAS 的數據收集和智能分類能力。語音識別系統能夠通過深度學習模型以 99.8% 的準確率識別參與者所說的日常句子。
圖文解析
圖1. 用于惡劣聲學環境下語音識別的無線、柔性、可附著式聲學傳感器。
a 實現HMI的語音識別系統示意圖。b 可附著式聲學傳感系統爆炸圖。c PMUT結構示意圖。d 處理發聲器官振動和肌肉運動信號的步驟流程圖,包括信號處理、控制、無線通信和顯示終端。e SAAS在語音識別與交互中的應用示意圖。
圖2. 裝置設計原理及特性描述。
a 基于SOI晶片的聲學傳感器三維結構剖面圖。b PZT、AlN、ScAlN及對應三種形狀的聲學傳感器相關參數的有限元仿真對比。c PMUT正面(I)和背面(II)的照片。d 制備的聲學芯片的光學顯微鏡圖像和微元件的特寫細節。e 制備的聲學芯片的Mo/ScAlN/Mo薄膜結構的SEM剖面圖。f 空氣中MEMS芯片的電阻抗幅值與相位的諧振頻率響應。g 水中封裝后的MEMS傳感器在低頻寬帶范圍內的靈敏度測試曲線。h 柔性器件在未變形(I)、扭曲(II)、彎曲(III)和拉伸(IV)下的圖像顯示。
圖3. 惡劣聲學環境下的語音檢測對比實驗。
a 安靜環境(I)、嘈雜環境(II)和戴口罩(III)下同一項對比測試的照片。b 當受試者在安靜環境(I)、嘈雜環境(II)和戴口罩(III)下說“CQU”時,SAAS顯示聲音信號的時域波形和頻譜信息。c 當受試者在安靜環境(I)、嘈雜環境(II)和戴口罩(III)下說“CQU”時,商用參考麥克風顯示聲音信號的時域波形和頻譜信息。d 受試者在9種喉部附著位置和動作下的照片。e 通過 SAAS 在 9 個喉嚨附著位置和動作中說“完美”時獲得的時域波形。
圖4. 基于SAAS的身份識別演示。
a–c音素、聲調、同音詞分類任務的混淆矩陣。d通過數據采集、深度學習和實時顯示實現的身份識別系統示意圖。e不同參與者說“hello world”時的聲音信息。f身份識別的混淆矩陣。
圖5. 使用SAAS控制虛擬游戲和機器狗。
a實時無線HMI控制系統示意圖。b吃豆人游戲中語音指令上下左右命令演示。c遠程無線控制機器狗通過語音命令執行動作:“站起來”、“跳舞”、“側翻”、“爬樓梯”。
圖6. 基于SAAS的語音識別系統在人機交互中的應用。
a通過數據處理、分類和實時顯示實現的交互系統示意圖。b 使用卷積神經網絡從參與者的日常對話中收集到的 10 個句子樣本的波形和相應的頻譜圖。c 句子識別任務的混淆矩陣。d 60 個 epoch 迭代過程中訓練和測試數據的歸一化準確率。e 經過 60 次 T-SNE 算法迭代處理后的特征向量矩陣。f 經過 60 次 T-SNE 算法迭代處理后的特征向量矩陣。
來源:柔性傳感及器件
-
人機交互
+關注
關注
12文章
1230瀏覽量
56095 -
語音識別
+關注
關注
39文章
1770瀏覽量
113758 -
機器學習
+關注
關注
66文章
8481瀏覽量
133880 -
可穿戴傳感器
+關注
關注
2文章
100瀏覽量
12729
發布評論請先 登錄
北京理工大學:研究眼機界面智能傳感硬件——從可穿戴到仿生

max30100用于可穿戴健康的脈搏血氧儀和心率傳感器IC手冊
基于WTVxxx語音芯片的智能清潔機器人語音交互系統設計方案介紹

【「嵌入式系統設計與實現」閱讀體驗】+ 基于語音識別的智能杯墊
語音芯片賦能可穿戴設備:開啟個性化音頻新體驗

語音識別技術的應用與發展
AFE4404用于可穿戴光學心率監測和生物傳感的超小型集成AFE數據表

離線語音識別芯片在智能生活中的應用
基于一種AI輔助可穿戴微流控比色傳感器系統

評論