兩年前,一名因脊髓損傷而癱瘓的64歲男子使用腦機接口(BCI)實現了以每分鐘8個單詞的速度打字,這在當時是創紀錄的。
加州大學舊金山分校(UCSF)的科學家們提出了一種由神經網絡驅動的新型BCI,可以讓癱瘓或中風的人以自然語音的速度(平均每分鐘150個單詞)交流。他們的這一研究成果4月24日發表在了Nature上,文章標題為“Speech synthesis from neural decoding of spoken sentences”。
USFC研究團隊發表在Nature上的論文
該技術通過一個獨特的兩步過程運作:首先,它將大腦信號轉換成聲道(包括下頜、喉部、嘴唇和舌頭)的運動。之后,它將這些運動合成為語音。該系統需要一個直接放置在大腦上的手掌大小的電極陣列。論文作者說,該系統概念驗證了從腦活動中重建自然語音是可能的。
加州大學舊金山分校的研究人員使用了與上圖中的電極陣列類似的一個顱內電極陣列來記錄參與這項新研究的受試者的大腦活動。照片來源:UCSF。
在關于該研究的一則新聞報道中,UCSF神經外科醫生、這項研究的負責人Edward Chang表示,許多研究都聚焦在從腦活動中解碼聲音或完整單詞,但解碼思想“非常困難” 。“我們很明確地嘗試解碼動作以創建聲音,而不是直接解碼聲音。”
美國西北大學神經修復實驗室的負責人Marc Slutzky(他并未參與該研究)說:“對于如何從腦信號中直接解碼語音,這是一項設計精美、執行良好的研究。”
然而,將這項技術轉化為臨床實踐將是一個挑戰,Slutzky補充說:“目前,FDA批準的設備中還沒有哪種使用他們在高通道能力情形下使用的電極類型(他們在這里使用了256個通道),所以這仍然是一個障礙。但我相信這最終會被克服。”
有很多研究在應用神經網絡——松散地模擬人腦的一套算法,常用于深度學習——來解釋腦活動“發出”的聲音,Chang的論文是這一系列努力中的最新成果。今年早些時候,兩個獨立的團隊——西北大學的Slutzky實驗室和哥倫比亞大學的Nima Mesgarani實驗室——分別在Journal of Neural Engineering和Scientific Reports上發表了論文,他們都使用神經網絡來從感覺網絡的腦活動中重建語音。Chang的研究與這兩項研究的不同之處在于,它分析的是運動皮層的腦活動。
西北大學Slutzky實驗室發表在Journal of Neural Engineering上的論文
哥倫比亞大學Nima Mesgarani實驗室發表在Scientific Reports上的論文
Mesgarani告訴IEEE Spectrum說:“最終哪種方法能更好地解碼想象中的言談情況,還有待觀察,但很可能將兩者結合起來的方法是最好的。”
包括Chang的研究在內的最近的各項研究都依賴于通過手術在大腦中或大腦上放置電極。雖然Facebook聲稱它正在開發一種能夠每分鐘從用戶的大腦中讀出100個單詞的非侵入性技術,但它還沒有發布支持這一說法的研究成果。專家們同意,外部電極無法從小腦區提供足夠精確的數據。專家們一致認為,外部電極無法提供來自腦部小區域的足夠精確的數據。BrainGate聯盟在2017年發表了那項關于癱瘓男子利用BCI實現每分鐘打字8個單詞的研究,最近它還發表了一篇關于癱瘓者利用BCI以“意念”操控平板電腦的論文,也都是依賴于植入大腦的芯片的。
在Chang及其同事們的研究中,他們在5名接受癲癇治療的受試者的言語運動皮層植入了電極陣列,然后從這些電極陣列收集數據。研究人員記錄了患者大聲說出幾百句話時的大腦信號。這些句子包括“這個蹺蹺板安全嗎?”和“在第十二天黃昏時,我們會喝夏布利酒”等,它們是被特別挑選出來,囊括了英語的所有音標。
接下來,研究人員使用一個神經網絡將這些高分辨率的腦信號解碼成聲道運動——本質上是將腦電波轉換成能夠產生聲音的物理運動模型,比如嘴唇、舌頭或下頜的運動。這項研究基于該團隊去年發表在Neuron期刊上的一個模型。
Chang的團隊去年發表在Neuron上的論文
最后,他們使用第二個神經網絡將這些聲道運動的數字化表示合成為音頻信號,并讓志愿者傾聽。在對101個句子的試驗中,聽者可以在單詞庫的幫助下很好地識別和寫出聽到的合成語音:句子中單詞來自25個單詞的詞匯池時,43%的句子被完美地寫了出來;句子中單詞來自50個單詞的詞匯池時,21%的句子被完美地寫了出來。總的來說,大約70%的單詞被正確地寫了出來。Chang說,下一步的研究包括使音頻更加自然和易懂。
這項研究還有一個有趣的發現,一名受試者被要求在不發出聲音的情況下用其聲道做相同的發音動作。BCI能夠從這些發音動作中合成出可理解的語音,這表明該系統可以應用于不能發出聲音的人。
解碼出來的聲道運動在人與人之間大同小異,這表明有可能創建出一種可在不同的人之間共享的“通用”解碼器。Chang說:“模仿一個人聲音的人造聲道可以被用來從另一個人的腦活動中合成語音。”
這項研究的一個主要局限是,其受試者都是沒有語言障礙的人。Chang說,未來,該團隊希望對不能說話的患者進行臨床試驗。
-
神經網絡
+關注
關注
42文章
4812瀏覽量
103141 -
腦機接口
+關注
關注
10文章
398瀏覽量
21945
原文標題:加州大學舊金山分校提出新型腦機接口 可根據腦活動重建自然語音
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論