欢乐颂第一季,最好看的小说排行,yy玄幻小说排行榜完本

現在，情況有了改善。當用戶詢問車機“明天出門需要帶傘么？”，車機就會播報明天的天氣情況，如果需要再查詢其他時間或者城市的天氣，那么用戶不用重新喚醒，也不需要說出完整表達，只需要說“那大后天呢？”、“那杭州呢？”。在用戶和車機在自然連續對話的過程中，語義理解服務會記住會話的歷史，并結合歷史處理用戶的請求，通過這種方式，用戶的多次連續交互就可以形成一個會話流，與用戶的交互也更加自然。

自然連續對話，是車載語音交互從“人工智障”邁向“人工智能”的重要一步。不過斑馬網絡最近推出的斑馬智行VENUS系統，打破了對用戶說話規則的要求，用戶可以按照自身的說話習慣來進行交流，交互過程更加人性化。這會不會是一個跨越？

從科幻到現實，語音交互一直在進化

提到智能語音交互，普羅大眾對于技術刷屏的記憶停留在2018年的Google開發者大會“Google I/O”開幕式上。當Google Assistant以驚人的流利會話，打電話和店家溝通，預約理發店、餐廳，并用一句俏皮的“嗯哼”作為回應時，觀眾給予了熱烈的掌聲。這是技術愿景美好、激勵人心的一面。

有趣的是，同年2月的美國第五十二屆超級碗的天價廣告上，亞馬遜賣力黑了自家的智能音箱和智能助手——Alexa。喚醒失誤、識別不準、響應困難等等用戶槽點，被廣告創意表現得淋漓盡致。這是技術的現實。

但不論是基于場景的未來暢想，還是對當下缺陷的大膽自嘲，兩個科技巨頭都將業務重心的一角，押注在了語音交互賽道上。

亞馬遜首席技術官Werner Vogels斷言：未來，人和數字世界對的交互，一定是以“人”為核心，而不是機器驅動；我們終將構建出更人性化的交互，讓人機互動更加融合。

在“以人為核心”、“更加融合”的人機交互中，語音交互（簡稱VUI）是核心。VUI允許更自由、高效的人機交互，其本質上比任何其他形式的用戶界面都更“人性化”。斯坦福大學教授，Wired for Speech的合著者，克利福德·納斯寫道：“語音是人類交流的基本手段……。所有文化主要通過語音來說服，告知和建立關系。”

VUI允許用戶使用語音作為媒介與機器進行交互。從《2011太空漫游》中的HAL到《星球大戰》中的C-3PO，人們在科幻電影里暢想著能夠與機器自由溝通。事實上，早在1952年，貝爾實驗室的工程師就開發出了Audrey（奧黛麗）：它可以識別數字0-9的發音。盡管奧黛麗能夠以超過90%的精度識別語音輸入，但其體積大，成本高昂，未曾步入大規模商業化的發展通道。

自此，人類開啟了長達半個多世紀的語音交互探索。1962年，IBM推出了第一臺真正意義上的是語音識別機器。工程師William Dersch開發出的Shoebox可以收聽操作員說出的數字和命令。例如“5+3+8+6+4-9，總和”，機器將打印出正確答案：17。

1970年，隱馬爾可夫模型（HMM）為語音識別的發展插上了算法的翅膀，讓語音識別從文字匹配進化到了可預測的高度。20世紀80年代，Covox，Dragon Systems，Speechworks相繼成立，推動了語音識別的商用化進程。

90年代，語音識別技術迎來了大規模商用和普及。1995年，Dragon發布了單詞聽寫級的語音識別軟件。這是人類歷史上首個面向廣大消費者的語音識別產品。僅一年之后，Charles Schawab（嘉信理財）和Nuance（紐昂斯）聯合推出了一套“語音股票經紀人”系統，可同時響應360個客戶的股票詢價電話。1997年，如今隸屬Nuance旗下的聲龍系統（Dragon system）推出了“NaturallySpeaking”軟件，這是歷史上第一個可用的“連續語音”聽寫軟件。它標志著單詞級不停頓語音交互的開始。

最近的20年，Google，Apple，Amazon先后推出了大眾耳熟能詳的智能語音助手，并通過智能手機、智能音箱等產品，來到普羅大眾身邊。據Juniper Research統計，截至2019年2月，全球使用中的語音助手達32.5億；預計到2023年，該數字將達到80億。

語音交互技術上的高山一：自然連續對話

隨著軟硬件的快速迭代，如今的ASR（語音識別）技術已近成熟，未來智能語音交互的核心競爭力在于在復雜場景下準確理解用戶的意圖，并為其提供差異化服務。更加智能的自然連續對話能力，將讓語音交互系統更具人類的親和力特質和邏輯思維能力，能帶給用戶更具情景化、更有溫度的用車體驗和服務潛力。

“智能相對論”認為，自然連續對話是一個系統的工程，涉及到從車機端的聲學前端處理、語音喚醒、語音識別、語義理解、對話管理、自然語言生成、語音合成等核心交互技術。斑馬智行VENUS的AI語音得益于阿里達摩院的重磅加持以及科大訊飛、思必馳等合作伙伴的大力支持，極大提升了語音能力。斑馬基于AliOS系統，可以更好地將語音核心技術能力與系統能力相結合，更大程度地發揮出語音核心技術的優勢，將多種引擎的協作發揮到極致，達到“1+1》2”的效果。

語音交互技術上的高山二：個性化，即聲音克隆

如果說自然連續對話為更自由的交互和差異化服務提供可能，那語音定制化則將個性化、情感化的語音交互率先落地。

2017年9月，一家名為Lyrebird的加拿大初創公司在推特上發布了一段10秒的錄音。錄音是內容AI模仿美國總統特朗普的話語。在此之前，Google旗下的DeepMind曾經公布了一個用AI合成人聲的研究成果：WaveNet，達到以假亂真的地步。Adobe也發布過一款名為Project VoCo的原型軟件，在傾聽20分鐘音頻樣本之后可以進行模仿。而Lyrebird將音頻采樣的輸入時間縮短到了60秒。

如今，國內智能網聯行業也首次迎來了語音定制——“聲音克隆”產品。斑馬智行VENUS系統“聲音克隆”操作流程非常簡單。用戶只需在斑馬智行APP錄制20句話即可合成私人語音包，一鍵發送至車機便可全局使用，無論是導航引導、天氣查詢，還是預訂餐廳，和你對話的都是你最想聽的聲音。

聲音是車載AI語音交互功能的“靈魂”，基于“聲音克隆”技術，斑馬智行VENUS系統將為用戶提供“千人千聲”的定制化服務，用戶可以“克隆”親人和愛人的聲音，讓陪伴更長久，讓駕駛更舒心。

據介紹，斑馬智行VENUS系統“聲音克隆”操作流程非常簡單。用戶只需在斑馬智行APP錄制20句話即可合成私人語音包，一鍵發送至車機便可全局使用，無論是導航引導、天氣查詢，還是預訂餐廳，和你對話的都是你最想聽的聲音。斑馬網絡AI語音相關負責人表示，斑馬智行VENUS系統能在錄制“傾聽”中“掌握”每個人說話時的字母、音位、單詞和語句的發音特點，通過深度學習技術推理并模仿聲音中的語音音色、語調，“說”出全新的語句。

攀登技術高山，如何讓機器交互能夠更接近真人交互依然在等待更好答案

語音是人類最舒適，最直觀的交流方式之一。如今的智能語音交互產品，變得越來越像人一樣聰明且富有感情。它可以準確理解信息輸入、高效處理并提供理想的信息輸出。“智能相對論”認為，在人工智能和5G迅速發展的背景下，語音平臺有機會成為物聯網時代下新的“操作系統”，連接全新的產業生態，包括各類服務、應用、硬件等。

在各類應用場景中，除了智能家居，汽車產品對于語音交互的需求顯而易見。不論是點擊、滑動等觸摸交互方式，在車載環境下都存在安全隱患且并不高效，語音交互是天然適應車載環境的交互方式。不過想要設計、開發、應用一套成熟的車載語音交互系統，要翻越重重高峰：行車噪音干擾如何處理、方言口音如何適配、自然的表達如何更好支持、系統的誤觸發如何控制在可用范圍。

而隨著用戶對汽車智能化要求的越來越高，更自然的交互成為語音交互的發展方向。如何讓機器交互能夠更接近真人交互？多模態融合理解、自然全雙工對話、自然語義理解成為了新的需要攀登的高峰。

斑馬智行的系統底層——AliOS，在傳統觸控、按鍵交互模式的基礎上，將語音交互能力、視覺交互能力以及場景信息在系統層進行融合互通，更大程度得發揮了各個交互能力的優勢，使得多模態融合理解、融合交互以及更自然的全雙工對話、擁有更多信號輸入的自然語義理解成為可能。同時在各種交互能力融合后對上層應用進行開放，使得最終呈現給用戶的交互更自然。

語音交互帶來的產業機遇方興未艾。如果說，未來的主流交互方式存在多樣的可能性，那更高率、更自然、更接近于人本能的方向一定是人機交互的未來。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

人機交互

人機交互

+關注

關注
12

文章
1228

瀏覽量
56012
AI

AI

+關注

關注
87

文章
33257

瀏覽量
273520

90元打造小智AI腕表，語音交互超有趣！

最近小智AI非常火，這周給大家分享一個來自開源平臺的小智AI腕表項目。項目作者@dotnfc，復刻成本90元左右，開源協議：MIT License 項目簡介本項目分享了小智AI聊天機器

發表于 04-16 14:26

聲學技術如何重構人機交互生態

當你的智能音箱能在嘈雜的客廳“聽懂”指令、AI 耳機能在地鐵的轟鳴聲中精準捕捉你的語音、AI硬件能辨識自然界中的各類聲音事件、機器人能通過聲紋與笑聲識別情緒時，一場“聲音智能”的革命正

發表于 04-14 13:50 ?120次閱讀

智能語音交互方案在客服領域的應用

在當今數字化浪潮中，客服領域正經歷著前所未有的變革，智能語音交互方案憑借其高效、便捷的特性，成為推動這一變革的核心力量。其中，語音識別模型優化私部署方案與語音合成聲音定制方案作為兩大核

發表于 04-11 14:35 ?98次閱讀

芯資訊｜WT2605C藍牙語音芯片：AI對話大模型賦能的智能交互新引擎

引言：AI技術驅動智能交互新趨勢在萬物互聯的智能時代，用戶對產品的交互體驗提出了更高要求——從“被動響應”向“主動對話”升級。如何將AI大模型的強大語義理解與

發表于 04-09 08:35 ?147次閱讀

零知開源——ESP32語音交互系統（AI小智）開發教程

一、功能介紹小智AI聊天機器人是一個基于嵌入式硬件與人工智能技術深度融合的智能交互系統。該項目以ESP32開發板為核心，結合語音喚醒、自然語言處理、音頻解碼播放及圖形化

發表于 03-29 16:30

零知開源——ESP32語音交互系統（AI小智）開發教程

小智AI聊天機器人是一個基于嵌入式硬件與人工智能技術深度融合的智能交互系統。該項目以ESP32開發板為核心，結合語音喚醒、自然語言處理、音頻解碼播放及圖形化

發表于 03-29 15:33 ?3740次閱讀

?多模態交互技術解析

多模態交互多模態交互（ Multimodal Interaction ）是指通過多種感官通道（如視覺、聽覺、觸覺等）或多種交互方式（如語音、手勢、觸控、眼動等）與計算機系統進行自然、

發表于 03-17 15:12 ?692次閱讀

WTV380-8S語音芯片：智能清潔設備的“語音助手”，小體積大能量，重塑人機交互體驗

隨著智能家居的普及，掃地機器人、擦窗機器人、洗地機等清潔設備正從“功能型”向“智能交互型”躍遷。用戶不僅需要高效的清潔能力，更期待直觀的語音

發表于 03-14 09:12 ?176次閱讀

基于WTVxxx語音芯片的智能清潔機器人語音交互系統設計方案介紹

?一、產品概述與設計需求隨著智能家居設備的普及，擦窗機器人和掃地機器人逐漸成為家庭清潔的重要工具。為提升用戶體驗，語音交互功能成為產品差異化的關鍵需求。廣州唯創電子WTVxxx系列

發表于 03-06 08:27 ?200次閱讀

RTC實時語音對話：開啟人機交互新生態，AI大模型智能聯動

在當今科技飛速發展的時代，AI大模型技術的爆發讓語音交互成為了人機協同的關鍵入口。就像Gartner預測的那樣，到2028年，15%的日常工作決策將由AIAgent自主完成。但傳統基于

發表于 02-26 18:23 ?764次閱讀

解鎖個性化語音交互新時代：九芯智能語音云平臺，讓創意聲音觸手可及！

九芯智能語音云平臺提供全面高效安全的智能語音服務，支持自定義語音內容，簡化燒錄流程，依托AI技術，助力各行業智能化升級，引領語音

發表于 01-02 16:51 ?489次閱讀

基于智能語音交互的智能呼叫中心工作機制

作為實現智能呼叫中心的關鍵技術之一的智能語音交互技術，它通過集成自然語言處理（NLP）、語音識別（ASR）和語音合成（TTS）等先進技術，實現了與客戶的智能

發表于 12-03 16:44 ?560次閱讀

聆思CSK6視覺語音大模型AI開發板入門資源合集（硬件資料、大模型語音/多模態交互/英語評測SDK合集）

豐富外設配件配套多模態應用示例，支持快速上手體驗大模型語音交互、智能視覺等 AI 應用板載 DAPLINK 調試器，外接一條USB 線即可實現燒錄、調試、串口日志查看板載網絡模組，支持開發聯網類

發表于 06-18 17:33

智能語音交互技術如何助力設備實現人機自然對話

智能語音交互技術是指通過語音識別、語音合成和自然語言理解等技術，實現人與機器之間自然語言的交流和互動。隨著現代人工智能在各行業的普及，智能

發表于 05-23 15:14 ?593次閱讀

WTK6900G語音識別芯片在車載語音交互氛圍燈上的應用案例解析

隨著智能汽車的快速發展，車載語音交互技術逐漸成為提升駕駛體驗的關鍵技術之一。傳統的車載燈光控制系統往往依賴于手動操作，不僅操作繁瑣，而且在駕駛過程中容易分散駕駛員的注意力。因此，開發一種高效、便捷

發表于 05-17 13:57 ?596次閱讀