對于有語言障礙的人來說,內(nèi)心的表達只能通過紙筆或者是手語來與人溝通交流,但他們想說的話卻會在腦海里時時回蕩,如果能將這些腦中的信號轉(zhuǎn)換為語音發(fā)出,將會給他們帶來巨大的幫助。隨著科技的迅猛發(fā)展,新技術(shù)有可能會造福于這些失語人群。最近,有三個研究小組進行了相關(guān)研究,他們使用基于神經(jīng)網(wǎng)絡(luò)的計算模型,將大腦中的腦電數(shù)據(jù)轉(zhuǎn)化為語言,并通過計算機合成出語音,重建了可被聽眾理解的單詞和句子。
傳統(tǒng)語音轉(zhuǎn)換
雖然目前已有基于默讀時的肌肉信號來進行語音合成技術(shù)的初步研究,但這種方式更多是幫助人們在不方便說話的時候與計算機或者其他人交流。
對于語音障礙人士特別是先天障礙,這種方式無法通過通常的肌肉信號來捕捉并合成出對應(yīng)的語音。如有有朝一日,新技術(shù)可以僅僅基于人們的思維過程而重建出人們腦中想表達的語言,將會造福更多的人。在中風或疾病之后失去說話能力的人可以使用眼動跟蹤、聯(lián)想輸入和語音合成播放三個步驟達到重新表達的目的。 霍金的個人助理設(shè)備就是觀測無法通過收縮他臉頰上的某塊肌肉,來觸發(fā)安裝在眼鏡上的開關(guān),從而輸入文字向世界傳達他的觀點和見解,但是他每分鐘僅可以輸入5-15個單詞,無法像正常人一樣流暢的表達自己的觀點,思維受制于設(shè)備的速度。試想,如果霍金可以像馬斯克或者老黃一樣流暢的發(fā)表自己的演講,不用花大量的時間用于輸出單詞,那么他很可能會為世界帶來更多的巨大的貢獻。
如果未來可以通過腦機接口來重構(gòu)他們的語言系統(tǒng),那將會為霍金一樣的使用者帶來巨大的幫助,他們不僅可以表達想說的話,還可以控制說話的音調(diào),表達的速度也會大幅提升,使得殘障人士實時對話和有效的表達成為可能。
已有的突破
前途是光明的,道路是曲折的。最先遇到的問題在于數(shù)據(jù)采集和數(shù)據(jù)量的限制。在不同個體之間,腦電信號轉(zhuǎn)化為語音的過程存在一定的差異性,因此必須對每個人(的個性化數(shù)據(jù))進行“訓(xùn)練”。
而且眾所周知:使用的數(shù)據(jù)越精確,模型的運行效果就越好,但是精準的模型需要開顱手術(shù)后才能獲得,這樣嚴苛的條件大大限制了數(shù)據(jù)的獲取,研究人員只能在極少數(shù)的情況下進行。一種情況是在移除腦腫瘤的手術(shù)期間,另一種情況是在癲癇患者腦內(nèi)植入電極,來診斷癲癇發(fā)作的起因。但是,每次留給研究者們的數(shù)據(jù)收集最多只有二三十分鐘。數(shù)據(jù)量非常有限。
研究人員目前正在致力于尋找出可替代的有效的數(shù)據(jù)獲取方式。其中一部分研究人員利用聽覺區(qū)域的植入電極來獲取大腦的信號,并試圖找出在不同時間點的神經(jīng)元模型推斷出對應(yīng)的語音。神經(jīng)網(wǎng)絡(luò)的計算模型過將信息傳遞到計算“節(jié)點”層來處理復(fù)雜模式。網(wǎng)絡(luò)通過調(diào)整節(jié)點之間的連接來學(xué)習。
在實驗中研究人員使用了兩種回歸模型一種用于生產(chǎn)聽覺頻譜,一種用于生成聲音信息的向量編碼。網(wǎng)絡(luò)的監(jiān)督信號和輸入信息分別是一個人產(chǎn)生或聽到的語音記錄和同時期的大腦活動數(shù)據(jù)中。一個團隊使用了來自五名癲癇患者的數(shù)據(jù)。他們的網(wǎng)絡(luò)分析了當病人聽到了故事和從0到9的數(shù)字的錄音時聽覺皮層(在語音和聽力過程中都很活躍)的活動狀況,然后利用計算機,以采集到的神經(jīng)數(shù)據(jù)為依據(jù),重建口述的數(shù)字。合成后的語音,準確率達到了75%。
另外一支由德國不來梅大學(xué)的神經(jīng)科學(xué)家和荷蘭馬斯特里赫特大學(xué)的學(xué)者組成的團隊,他們使用來源于六名接受腦瘤手術(shù)患者的數(shù)據(jù)。首先,患者被要求重復(fù)屏幕上出現(xiàn)的詞語,同時通過麥克風來捕捉音頻信息。同時研究者們還需捕捉從大腦的語音規(guī)劃區(qū)域和運動區(qū)域獲取的信號,這些信號向聲道發(fā)送命令,并使得人們能清楚說出單詞。
最后,利用神經(jīng)網(wǎng)絡(luò)模型將腦電信號映射到音頻記錄,然后從數(shù)據(jù)中重建單詞。研究結(jié)果表明:大約40%的計算機生成的單詞是可以理解的。研究人員主要使用了下圖所示的densenet模型來實現(xiàn)電信號的音頻信號的重建:
此外自于加州大學(xué)舊金山分校的團隊通過從語言和運動區(qū)域捕獲的大腦活動來重建整個句子,他們所使用的數(shù)據(jù)采集于三名癲癇的患者大聲朗讀的過程中。為了驗證重建句子的有效性,邀請了166名受試者進行了在線測試。實驗結(jié)果表明,對于某些句子,達到了超過80%的識別準確率。
研究人員還進一步改進了模型:他們使用該模型來基于默念采集到的信息來重建句子。該研究使得人們基于腦中思維過程而重建出腦中想表達的內(nèi)容的目標又更進一步。
未來展望
未來,我們期望的是患者不用說話,僅僅通過腦中的思維過程來進行語音合成。當一個人默念和感知到某種語言時,大腦的反應(yīng)與真正說出和聽到聲音時的信號不同。如果沒有外部聲音來匹配大腦活動,計算機甚至可能很難理清內(nèi)部語音的開始和結(jié)束位置。解碼”想象中的語言” 需要利用腦機接口向用戶提供反饋——他們能夠?qū)崟r聽到計算機的語音解釋,給出計算機反饋,以獲得他們想要的結(jié)果。通過對用戶和神經(jīng)網(wǎng)絡(luò)的充分訓(xùn)練,未來的某一天,大腦和計算機也許能找到更好的配合方法。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4797瀏覽量
102238 -
語音合成技術(shù)
+關(guān)注
關(guān)注
0文章
8瀏覽量
2573
原文標題:所思即所講,腦波語音合成技術(shù)助力語言障礙人士表達心聲
文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
神經(jīng)網(wǎng)絡(luò)教程(李亞非)
【PYNQ-Z2試用體驗】神經(jīng)網(wǎng)絡(luò)基礎(chǔ)知識
如何構(gòu)建神經(jīng)網(wǎng)絡(luò)?
神經(jīng)形態(tài)芯片越來越多地模擬大腦可塑性
卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用
什么是神經(jīng)網(wǎng)絡(luò)?為什么說神經(jīng)網(wǎng)絡(luò)很重要?神經(jīng)網(wǎng)絡(luò)如何工作?

卷積神經(jīng)網(wǎng)絡(luò)模型原理 卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
常見的卷積神經(jīng)網(wǎng)絡(luò)模型 典型的卷積神經(jīng)網(wǎng)絡(luò)模型
cnn卷積神經(jīng)網(wǎng)絡(luò)模型 卷積神經(jīng)網(wǎng)絡(luò)預(yù)測模型 生成卷積神經(jīng)網(wǎng)絡(luò)模型
卷積神經(jīng)網(wǎng)絡(luò)模型搭建
神經(jīng)網(wǎng)絡(luò)模型的工作原理和作用
構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的常用方法 神經(jīng)網(wǎng)絡(luò)模型的常用算法介紹
人工神經(jīng)網(wǎng)絡(luò)模型的分類有哪些
基于神經(jīng)網(wǎng)絡(luò)的語言模型有哪些
人工神經(jīng)網(wǎng)絡(luò)的原理和多種神經(jīng)網(wǎng)絡(luò)架構(gòu)方法

評論