在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何在MATLAB中構建智能語音助手

MATLAB ? 來源:MATLAB ? 2025-06-30 14:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

具身智能是一種將智能與物理實體深度融合的人工智能形態,強調智能行為既依賴智能體自身算力,更離不開其與環境的感知交互。在具身智能體與人類交互方面,自然語言是極為直觀且高效的溝通方式。

大語言模型(LLM)憑借卓越的自然語言理解、生成與推理能力,與具身智能結合,人類可經語音智能體發出指令、提出問題或者表達需求,LLM 能處理理解語言信息并生成回復,還可以將用戶指令解析為具體動作或任務目標,助力具身智能體精準把握人類意圖并協同工作。

我們利用 MATLAB 開發了一個簡易智能助手,實現了基于語音的人機交互。下面的視頻將展示該語音助手如何被喚醒,以及它如何應答用戶提問和接收指令以操控電機開關。

系統概況

下圖展示了該智能助手簡要的工作流程:它通過監聽環境并檢測觸發詞來被喚醒,之后調用語音轉文本模型將用戶語音轉化為文本,通過文本判斷是否為用戶指令:若為指令,則將其轉化為控制信息發送至硬件執行;若非指令,則調用LLM生成相應的回復;最后,通過文本轉語音模型將回復文本轉化為語音并播放。

wKgZO2hiLzqAXdg4AAGOkeSNF0s896.png

本文將展示如何在 MATLAB 中構建這樣一個語音助手,以及 MATLAB 在智能應用快速原型方面的如下能力:

用戶界面設計與實現

語音信號采集與處理

Python 模型集成

大語言模型支持

硬件控制與代碼部署

用戶界面設計與實現

MATLAB 提供一個用于設計和編程 App 的交互式開發環境 App Designer,可以用來設計智能助手的用戶界面。App Designer 內置完整的 MATLAB 編輯器和豐富的交互式 UI 組件,支持通過網格布局管理界面,并可自動適應屏幕尺寸變化。用戶可直接在工具欄將 App 打包為安裝文件分發,或借助 MATLAB Compiler 創建獨立桌面或 Web App。

wKgZPGhiLzqAIv1JAAGlSb_DO1E198.png

可參考如下網頁快速入門 App Designer:

使用 App 設計工具開發 App:https://ww2.mathworks.cn/help/matlab/app-designer.html

語音采集與處理

除了基本的 Signal Processing Toolbox,MATLAB 還專門為音頻、語音和聲學信號的處理與分析提供了Audio Toolbox,這也為我們智能助手的語音采集和處理提供了便利。Audio Toolbox 提供豐富的算法,可用于音頻信號處理、聲學指標估算、音頻數據集標注與增強,以及音頻特征提取。

可訪問如下網頁學習如何在 MATLAB 中通過 Audio Toolbox 采集、分析及處理語音信號:

Audio Toolbox:https://ww2.mathworks.cn/help/audio/index.html

結合上一步,如需在用戶界面上實現音頻文件的波形顯示與播放,可參考如下示例:

創建音頻播放與可視化應用:*https://ww2.mathworks.cn/help/audio/ug/create-an-app-to-play-and-visualize-audio-files.html *

在智能助手應用中,觸發詞檢測、語音轉文本和文本轉語音這三個模塊都是基于Audio Toolbox 網頁上提供的 “AI for Audio” 相關參考示例和函數來實現的。MATLAB 提供了Statistics and Machine Learning Toolbox 和 Deep Learning Toolbox 來支持 AI 方面的應用。其中,觸發詞檢測主要是通過訓練一個深度學習網絡來完成。可在 MathWorks 官網上搜索以下示例,學習如何在 MATLAB 中對音頻信號打標簽,如何設計與訓練一個用于觸發詞檢測的深度學習網絡,以及如何裁剪及量化 神經網絡并把它部署到樹莓派中。

wKgZO2hiLzqAEZ72AAKy4JdPu1s846.png

對于語音與文本的相互轉換,需在 MATLAB 工具欄的“Add-Ons”下點擊“Get Add-Ons”,搜索并安裝“Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries”。也可訪問如下網頁直接下載安裝,并查看其使用文檔及相關示例:

Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries:https://ww2.mathworks.cn/matlabcentral/fileexchange/160371-audio-toolbox-interface-for-speechbrain-and-torchaudio-libraries

wKgZPGhiLzqAJSVjAANow5pfpn4825.png

該插件可自動安裝 Python 和 PyTorch,并下載 SpeechBrain 和 Torchaudio 庫中的深度學習模型,從而為 Audio Toolbox 提供了基于 AI 的語音識別(ASR)和語音合成功能,使得MATLAB 用戶無需深度學習經驗即可直接使用前沿的 AI 語音模型。

用戶可通過 speechClient 對象,調用speech2text和text2speech函數,選用本地模型或者Google、IBM、Microsoft、Amazon 等云服務,分別實現語音轉文本(STT)(或自動語音識別(ASR))和文本轉語音(TTS)(或語音合成)功能。對于中文,可選擇whisper 模型實現語音轉文本,注意這時需單獨下載模型權重。

Python 模型集成

在文本轉語音模塊中,text2speech 函數使用的是 HiFi-GAN/Tacotron2 預訓練模型,無法合成超過約 10 秒的語音信號。因此,可在 MATLAB 中配置 Python 環境,安裝和調用其他預訓練好的 Python 模型。具體操作可參考:

從 MATLAB 中調用 Python:https://ww2.mathworks.cn/help/matlab/call-python-libraries.html

在智能助手的示例中,我們選用的是pyttsx3,一個可直接調用多種操作系統的 TTS,支持在離線狀態下實現文本轉語音并播放功能的Python 庫。

在 MATLAB 命令行,可使用如下命令安裝pyttsx3庫:

wKgZO2hiLzqAIH1XAACpiaoMxII787.png

然后,通過如下函數初始化一個基于pyttsx3的TTS引擎并設置其參數:

wKgZPGhiLzqAWo18AAMpQyEKjTw287.png

之后,就可利用* engine.say()* 函數傳入需要合成并播放的文本,使用*engine.runAndWait() *函數等待朗讀任務的完成。

大語言模型支持

在我們的智能助手項目中,大語言模型被用來回答用戶的提問。為此,需要在附加功能資源瀏覽器中搜索并安裝 “Large Language Models (LLM) with MATLAB” ,或訪問如下網頁直接下載并安裝:

Large Language Models (LLMs) with MATLAB:https://ww2.mathworks.cn/matlabcentral/fileexchange/163796-large-language-models-llms-with-matlab

wKgZPGhiLzuAJvTCAAKWxywY5PM654.png

這個Add-on可以幫助用戶通過 MATLAB 連接或者調用各種大語言模型。目前支持 OpenAI Chat Completions API 和 OpenAI Images API 等,還支持調用 Ollama 部署的本地大模型。可參考之前發布的微信文章《如何運行本地 DeepSeek 模型并在 MATLAB 中使用?》了解更多。

硬件控制和代碼部署

與硬件設備進行交互是具身智能的一大特色,在這個智能助手項目中,用戶可以通過指令控制電機啟動和關閉。MATLAB 和 Simulink 可以直接與一些硬件鏈接并進行實時數據流傳輸,還能支持將算法和模型自動生成 C/C++、HDL 或 PLC 代碼等,部署到嵌入式系統中,如機器人控制器、無人車的車載計算機等,實現具身智能系統的實際運行。

可在如下網頁中找到更詳細的信息:

MATLAB 的硬件支持:https://ww2.mathworks.cn/hardware-support/home.html

為了演示智能助手對電機的控制,我們基于如下 MATLAB 隨軟件附帶的示例做了簡單修改:

使用基于 STM32 處理器的板子實現對三相交流電機的開環控制:https://ww2.mathworks.cn/help/ecoder/stmicroelectronicsstm32f4discovery/ug/Openn-Loop-Control-Example.html

原始示例是通過板卡上的按鍵打開或者關閉電機運行,我們將“Communication” 下的“Start and Stop Motor” 模塊修改成通過 USART2 串口接收信號控制電機啟動與停止(如下圖所示)。所以,當智能助手檢測到電機控制指令時,只需要在串口發送該指令所相對應的數字即可。

wKgZPGhiLzqAFZL0AAExLzHAZtY896.png

記得在 MATLAB 電機控制命令發送函數中使用與 STM32 USART2 端口配置中相同的波特率與字長。

wKgZO2hiLzqAWHh1AAMgtotzuf8580.png

總結

目前,我們僅使用 MATLAB 將具身智能與大語言模型(LLM)結合,在人機交互方面進行了初步探索,未來將繼續探索能否直接使用多模態模型直接解析用戶需求來實現具身智能的人機交互。

除了人機交互, MATLAB 在具身智能的建模與仿真、感知與數據處理、決策與控制、學習與訓練、測試與評估、嵌入式部署及代碼生成等眾多領域,均是功能強大的工具。歡迎感興趣的小伙伴們和我們一同進行探索與研究!

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人機交互
    +關注

    關注

    12

    文章

    1243

    瀏覽量

    56326
  • matlab
    +關注

    關注

    189

    文章

    3000

    瀏覽量

    233677
  • 智能助手
    +關注

    關注

    0

    文章

    24

    瀏覽量

    3110
  • 具身智能
    +關注

    關注

    0

    文章

    132

    瀏覽量

    433

原文標題:大語言模型(LLM) 賦能具身智能中的人機交互

文章出處:【微信號:MATLAB,微信公眾號:MATLAB】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    智能語音助手將成為智能家居用戶入口

    智能語音助手成為2017年CES和MWC熱點之一,內置智能語音助手的產品覆蓋多個領域、多個品牌的
    發表于 05-27 16:26 ?2948次閱讀

    語音助手的常見問題有哪些?

    語音助手語音識別、自然語音處理的完美結合,目前已被廣泛應用于生活,滿足人們對遠端操控的需求。語音
    發表于 08-06 08:25

    【 平頭哥CB5654語音開發板試用連載】智能聲控語音助手

    項目名稱:智能聲控語音助手試用計劃:本人在音視頻領域有三年工作經歷,在校期間一直關注智能設備,對于智能音響和
    發表于 02-25 16:09

    何在matlab實現Virtual Reality 技術

    何在matlab實現Virtual Reality 技術,資料的代碼很全,步驟很清晰,很實用,歡迎大家下載交流。
    發表于 06-03 16:57 ?0次下載

    語音助手智能電視標配 真的會用了就離不開語音助手嗎?

    語音助手功能逐漸開始成為電視的標配,對于這項功能你應該并不陌生,每天拿在手里的智能手機都可以開啟語音助手,比如iPhone的Siri,但很多
    發表于 06-12 16:44 ?1.2w次閱讀

    語音助手打電話訂餐廳

    語音助手是一款智能型的手機應用,通過智能對話與即時問答的智能交互,實現幫忙用戶解決問題,其主要是幫忙用戶解決生活類問題。蘋果手機
    的頭像 發表于 06-03 06:01 ?2663次閱讀

    何在MATLAB開發基于像素的視頻和圖像處理算法

    此講座將結合新產品的特性,重點介紹如何在MATLAB?開發基于像素流的視頻和圖像處理的算法,并通過HDL代碼產生的技術快速在FPGA上實現。你將了解到:如何在
    的頭像 發表于 08-29 06:08 ?3078次閱讀
    如<b class='flag-5'>何在</b><b class='flag-5'>MATLAB</b><b class='flag-5'>中</b>開發基于像素的視頻和圖像處理算法

    智能語音助手的原理_預測智能語音助手的未來

    本文首先介紹了自然語言處理(NLP)和自然語言生成(NLG)這兩種基礎技術,然后分別對語音識別的基本原理,工作原理,工作流程進行了解釋,最后簡單地預測了智能語音助手地未來發展趨勢。
    發表于 07-31 10:16 ?2.2w次閱讀

    智能家居設備有必要植入語音助手功能嗎?

    隨著智能家居技術在過去五年的不斷進步,萬物互聯成為了智能設備的發展焦點。在所有的智能家居品類之中,以智能音箱發展最為迅猛,這也得益于
    的頭像 發表于 07-03 09:43 ?3508次閱讀

    語音數據集在智能語音助手中的應用與挑戰

    一、引言 隨著智能設備的普及和人工智能技術的不斷發展,智能語音助手已經成為人們日常生活不可或缺
    的頭像 發表于 12-14 15:07 ?1002次閱讀

    語音數據集在智能語音助手中的應用與挑戰

    一、引言 隨著人工智能技術的不斷發展,智能語音助手已經成為了人們日常生活不可或缺的一部分。語音
    的頭像 發表于 01-18 15:46 ?721次閱讀

    智能語音助手在醫療行業的應用與挑戰

    一、引言 隨著人工智能技術的不斷發展,智能語音助手在醫療行業的應用越來越廣泛。語音數據集在醫療智能
    的頭像 發表于 01-18 16:41 ?774次閱讀

    智能語音助手在教育行業的應用與挑戰

    一、引言 隨著人工智能技術的不斷發展,智能語音助手在教育行業的應用越來越廣泛。語音數據集在教育智能
    的頭像 發表于 01-19 17:21 ?1487次閱讀

    智能語音助手在旅游行業的應用與挑戰

    一、引言 隨著人工智能技術的不斷發展和普及,智能語音助手在旅游行業的應用越來越廣泛。語音數據集在旅游智能
    的頭像 發表于 01-19 17:30 ?1323次閱讀

    智能語音助手在醫療行業的應用與挑戰

    一、引言 隨著人工智能技術的不斷發展,智能語音助手在醫療行業的應用越來越廣泛。語音數據集在醫療智能
    的頭像 發表于 01-19 17:37 ?1078次閱讀
    主站蜘蛛池模板: 亚洲激情视频网 | 26uuu另类欧美亚洲曰本 | 最新国产厕所 | 国漫在线观看 | 扒开双腿猛进湿润18p | 羞羞视频靠逼视频大全 | 欧美日韩色图 | 五月婷花| 丁香六月五月婷婷 | 日本三级午夜 | 在线午夜 | 狠狠色丁香久久综合婷婷 | 免费无遮挡很爽很污很黄 | 欧美一区二区视频在线观看 | www.av123| 四虎永久免费地址在线网站 | 国产女人小便视频 | 久久精品国产福利 | 国产做a爰片久久毛片a | 久青草免费视频手机在线观看 | 日韩视频 中文字幕 视频一区 | 久操免费视频 | 久久人人视频 | 二区三区在线观看 | 成年人黄色免费网站 | bt天堂磁力搜索 | 久久亚洲国产成人精品性色 | 四虎欧美 | 天堂在线免费视频 | 久久精品国产99国产精品免费看 | 久久婷婷成人综合色 | 亚洲欧美一区二区三区在线播放 | 人人澡人人草 | 天天干亚洲| 欧美视频xxxxx| 国产在线视欧美亚综合 | 中文字幕在线观看一区二区三区 | 亚洲第一成人影院 | 国产黄色大片又色又爽 | 白嫩美女在线啪视频观看 | 免费一区二区视频 |