全球人工智能產(chǎn)業(yè)正經(jīng)歷人機(jī)交互范式升級(jí)。過去兩個(gè)月中,以O(shè)penAI、Meta為代表的行業(yè)領(lǐng)軍企業(yè)加速推進(jìn)交互技術(shù)創(chuàng)新迭代,推動(dòng)產(chǎn)業(yè)進(jìn)入關(guān)鍵變革期。值得關(guān)注的是,a16z合伙人Olivia Moore與Anish Acharya在深度訪談中系統(tǒng)闡釋了"語音交互將成為AI應(yīng)用最具突破潛力的核心接口"這一戰(zhàn)略判斷,明確指出在消費(fèi)級(jí)市場,語音交互極可能發(fā)展為用戶接觸AI系統(tǒng)的首要觸點(diǎn),甚至演進(jìn)為主導(dǎo)型交互模態(tài)。
作為聲學(xué)計(jì)算與人機(jī)交互領(lǐng)域的深耕者,聲智科技自創(chuàng)立以來始終致力于聲學(xué)計(jì)算與人機(jī)交互核心技術(shù)研發(fā)。在AIoT發(fā)展初期階段,公司即構(gòu)建起具備行業(yè)領(lǐng)先性的人機(jī)交互技術(shù)架構(gòu),成功賦能智能音箱、攝像頭等終端設(shè)備實(shí)現(xiàn)語音交互功能,形成"技術(shù)前瞻布局-產(chǎn)品快速迭代-市場精準(zhǔn)適配"的良性發(fā)展模式。
在全球化AI技術(shù)競速背景下,聲智科技率先取得革命性突破。2025年5月正式發(fā)布了創(chuàng)新性論文《面向真實(shí)世界人機(jī)交互的非線性聲學(xué)計(jì)算與強(qiáng)化學(xué)習(xí)協(xié)同框架》。
論文題目:A Synergistic Framework of Nonlinear Acoustic Computing and Reinforcement Learning for Real-World Human-Robot Interaction
代碼鏈接:?https://github.com/soundai2016/nonlinear-acoustic-rl-hri
論文鏈接:https://arxiv.org/abs/2505.01998
論文首次提出與國際標(biāo)準(zhǔn)接軌的新一代真實(shí)世界人機(jī)交互框架,并同步公布全棧算法的測試數(shù)據(jù),多項(xiàng)指標(biāo)均處于業(yè)界領(lǐng)先水平。
以上數(shù)據(jù)來源于公開論文,對(duì) Azero、MMS/Llama、Qwen、GPT-4o、Seed 和 Deepseek 六家公司的系列模型在八項(xiàng)關(guān)鍵指標(biāo)(語音增強(qiáng)模型VEP、語音克隆模型TTS、語音識(shí)別中文模型ASR_ZH、語音識(shí)別英文模型ASR_EN、語言模型中文能力LLM_ZH、語言模型英文能力LLM_EN、聲音情感識(shí)別模型Emotion、聲學(xué)事件識(shí)別模型Event)上的統(tǒng)一測評(píng),結(jié)果顯示 Azero 以信號(hào)藍(lán)粗實(shí)線突出其卓越表現(xiàn):在聲學(xué)語音增強(qiáng)(VEP 95)和語音克隆合成質(zhì)量(TTS 98.42)上穩(wěn)居榜首,中英文識(shí)別準(zhǔn)確率分別達(dá)到 98.37% 和 94.88%,中文理解能力 87.2 分優(yōu)于多數(shù)競品;值得一提的是,Azero 兼具實(shí)時(shí)的聲音情感和聲學(xué)事件識(shí)別能力,充分證明了其在遠(yuǎn)場聲學(xué)、語音克隆、多語交互及語言理解上的全棧算法與領(lǐng)先實(shí)力。
該研究突破傳統(tǒng)線性聲學(xué)模型限制,通過非線性計(jì)算與強(qiáng)化學(xué)習(xí)的協(xié)同優(yōu)化,成功實(shí)現(xiàn)復(fù)雜場景下的自適應(yīng)交互能力,為"AI融入真實(shí)世界(Real World Experience)"戰(zhàn)略目標(biāo)提供了關(guān)鍵技術(shù)支撐。在持續(xù)深化技術(shù)布局的同時(shí),聲智著力構(gòu)建基于聽覺感知的入口級(jí)技術(shù),致力于打造具備真實(shí)場景理解能力的人機(jī)交互架構(gòu),為下一代AI應(yīng)用產(chǎn)品落地提供底層技術(shù)架構(gòu)支持,推動(dòng)人機(jī)交互從"被動(dòng)接收"向"主動(dòng)感知"的跨越式發(fā)展。
全場景語音識(shí)別:
暢通真實(shí)世界的"溝通橋梁"
聲智科技在聲學(xué)信號(hào)處理領(lǐng)域的突破,本質(zhì)上是對(duì)"復(fù)雜環(huán)境聽覺能力"的革命性重構(gòu)。
噪聲抑制:
從 "可聽" 到 "聽清" 的質(zhì)變跨越
在對(duì)聲音降噪算法進(jìn)行深入分析時(shí),通常會(huì)在多種信噪比(SNR)條件下進(jìn)行系統(tǒng)測試——從極端低信噪比(如–5dB的強(qiáng)噪環(huán)境)到高信噪比(如20dB的低噪環(huán)境),并結(jié)合多種評(píng)測指標(biāo)(如PESQ、MOS-LQO、STOI、SDR等)來全面量化算法在不同噪聲強(qiáng)度與類型(白噪、Babble噪聲、交通噪聲、街道噪聲等)下的性能表現(xiàn)。通過對(duì)比各個(gè)SNR點(diǎn)上的語音清晰度、可懂度和音質(zhì)恢復(fù)效果,可以直觀地評(píng)估算法的低信噪比魯棒性、高信噪比分辨力以及對(duì)多場景噪聲的普適適應(yīng)能力。
在極端噪聲環(huán)境下,聲智噪聲分離模型可實(shí)現(xiàn)信噪比提升,首次在超高頻噪聲場景中實(shí)現(xiàn)"噪聲隔離級(jí)"清晰語音還原。
以下是聲智Azero算法在本次測試中展現(xiàn)的兩大核心優(yōu)勢(shì)特性。
一是極低信噪比魯棒性,在-5dB極低信噪比噪聲環(huán)境下,僅有Azero算法能夠處理 ,并且性能表現(xiàn)良好,具有更好的魯棒性和實(shí)時(shí)性。
二是多場景普適性,在Babble Noise、 Car Noise、Street Noise 等真實(shí)場景中,降噪性能均大幅領(lǐng)先海外降噪技術(shù)評(píng)測結(jié)果(詳見下圖藍(lán)色線條),且對(duì)噪聲類型的識(shí)別范圍更寬泛、在極低信噪比的惡劣環(huán)境下仍能進(jìn)行高清晰度的人聲增強(qiáng),真正實(shí)現(xiàn)"地鐵喧嘩中聽清耳語,鬧市街頭精準(zhǔn)拾音"。
聲音克隆:
音色相似度與合成準(zhǔn)確率評(píng)測雙登頂
在聲音克隆技術(shù)中,AzeroTTS的SIM-O音色相似度達(dá)0.73,詞錯(cuò)率WER低至1.58%,MOS自然度評(píng)分4.01,等同于真實(shí)語音。對(duì)比LibriSpeech數(shù)據(jù)集,其內(nèi)容準(zhǔn)確率超越VALL-E2、VoiceBox等國際頂尖模型,在低成本的真實(shí)環(huán)境下能夠?qū)崿F(xiàn)"音色復(fù)刻如臨其境,內(nèi)容還原分毫不差"。自創(chuàng)始以來,聲智科技十分注重面向真實(shí)場景的用戶服務(wù)落地,聲音克隆技術(shù)目前已在聲智APP上線,面向全球用戶不斷提升體驗(yàn)感。
情感感知:
實(shí)時(shí)捕捉人類情緒的"第六感官"
在強(qiáng)噪聲環(huán)境下,可精準(zhǔn)區(qū)分多種聲音情感及400+聲學(xué)環(huán)境事件(如爆竹聲、引擎轟鳴聲、嬰兒笑聲)。即使在車水馬龍的街頭,也能通過語音語調(diào)變化捕捉用戶的細(xì)微情緒,為智能設(shè)備賦予超強(qiáng)"共情力"。
毫秒級(jí)響應(yīng):
構(gòu)建低延遲交互基石
通過波束成形與殘差網(wǎng)絡(luò)優(yōu)化,在RTX6000Ada平臺(tái)上,平均RTF低至0.0375(A100為0.0487,RTX4090為0.0806),即使在30秒以上長音頻處理中,RTF僅0.0101,真正滿足實(shí)時(shí)通話、直播降噪等毫秒級(jí)延遲敏感場景需求。
全場景語音識(shí)別:
暢通真實(shí)世界的"溝通橋梁"
聲智的語音技術(shù)優(yōu)勢(shì),不僅在于"聽得清",更在于"聽得準(zhǔn)""聽得懂"。
復(fù)雜噪聲精準(zhǔn)識(shí)別:
準(zhǔn)確率超越OpenAI
中文場景:在AISHELL-1數(shù)據(jù)集上,WER指標(biāo)優(yōu)于其他模型;AISHELL-2復(fù)雜場景下,領(lǐng)先行業(yè)平均水平。
英文場景:Fleurs數(shù)據(jù)集上WER指標(biāo)測評(píng)表現(xiàn)優(yōu)異,且不依賴大型語言模型做后處理校正,純模型原始輸出即達(dá)行業(yè)頂尖水平。
多種語言混雜識(shí)別:
真實(shí)場景21種語言識(shí)別準(zhǔn)確率90%+
在真實(shí)語言場景下,香港、新加坡、馬來西亞等具有典型多語系特征的區(qū)域,因其獨(dú)特的語言生態(tài)對(duì)智能系統(tǒng)的多語交互能力提出了更高要求。這些地區(qū)涉及不同語言變體的復(fù)雜轉(zhuǎn)換——香港的粵語夾雜英語詞匯的港式表達(dá)、新加坡融合福建方言的華語形態(tài)、馬來西亞帶有馬來語元素的華文語境,都要求語言識(shí)別技術(shù)具備深度文化適應(yīng)能力。
面向此種真實(shí)環(huán)境需求,聲智在Fleurs和CommonVoice兩個(gè)國際權(quán)威的多語種語音數(shù)據(jù)集上進(jìn)行了全面測試,實(shí)驗(yàn)結(jié)果表明,聲智的語音識(shí)別模型在不同語種下均表現(xiàn)出色,識(shí)別準(zhǔn)確率穩(wěn)定保持在90%以上。從歐洲小語種到亞洲地方語言,實(shí)現(xiàn)"一套模型,全球通聽"的跨語言識(shí)別與翻譯。
"輕量""智答"語言模型:
讓機(jī)器學(xué)會(huì)"耳腦協(xié)同"的交互藝術(shù)
在新一代人機(jī)交互的技術(shù)架構(gòu)中,語言模型從"算力競賽"轉(zhuǎn)向"效能突圍"。基于聲學(xué)技術(shù)構(gòu)建的底層感知系統(tǒng),輕量級(jí)語言模型承擔(dān)著人機(jī)交互的"認(rèn)知中樞"角色,通過精準(zhǔn)的語義泛化、邏輯推理與意圖提煉,在低成本的算力條件下實(shí)現(xiàn)語音指令的高效解析與自然響應(yīng),構(gòu)建貼近真實(shí)場景的交互體驗(yàn)。這種"小而精"的技術(shù)路徑,使語言模型真正成為連接用戶需求與設(shè)備功能的效能樞紐,推動(dòng)人機(jī)交互從"技術(shù)堆砌"向"體驗(yàn)優(yōu)先"轉(zhuǎn)型,為智能硬件和AI應(yīng)用服務(wù)落地提供可持續(xù)的技術(shù)底座。
"小而精"技術(shù)路徑:
評(píng)測位列第一梯隊(duì)
AzeroGPT:依托數(shù)億級(jí)參數(shù)量基底,在權(quán)威榜單中表現(xiàn)亮眼;
C-Eval:人文社科領(lǐng)域、STEM領(lǐng)域排名靠前,超越多數(shù)語言大模型;
Livebenchcode_v5:輕量化設(shè)計(jì)使其算力需求遠(yuǎn)低于傳統(tǒng)大模型,性價(jià)比優(yōu)勢(shì)顯著。
從技術(shù)構(gòu)想走向場景落地:
開啟主動(dòng)感知人機(jī)交互新紀(jì)元
“ 在人工智能技術(shù)高速迭代的今天,當(dāng)行業(yè)目光逐漸從模型參數(shù)競賽轉(zhuǎn)向真實(shí)場景價(jià)值落地,聲智科發(fā)布的人機(jī)交互框架,正以"可落地、可驗(yàn)證、可生長"的技術(shù)特質(zhì),打破"實(shí)驗(yàn)室技術(shù)"與"現(xiàn)實(shí)應(yīng)用"的壁壘,讓"機(jī)器理解人類"不再停留在理論構(gòu)想,而是成為觸手可及的交互體驗(yàn)。聲智的 "主動(dòng)感知" 框架深度錨定三大核心體驗(yàn)維度:"聞聲知意,懂你所需"、"聞聲辨境,知你所求"、"聽你所言,知你所想"。聲智的技術(shù)突圍,源于對(duì)"場景價(jià)值"的深度解構(gòu),通過非線性聲學(xué)計(jì)算技術(shù)穿透復(fù)雜環(huán)境噪聲,結(jié)合強(qiáng)化學(xué)習(xí)構(gòu)建場景化決策模型,形成"感知 - 理解 - 預(yù)測 - 優(yōu)化"的閉環(huán)能力。這種"輕量架構(gòu) + 重場景適配"的設(shè)計(jì),在智能汽車、工業(yè)機(jī)器人、智慧醫(yī)療等領(lǐng)域?qū)崿F(xiàn)低成本快速部署,同時(shí)保持復(fù)雜環(huán)境指令解析準(zhǔn)確率。
智慧生活:
設(shè)備從"聽見"到"聽懂"再到"預(yù)判需求"
在智慧生活場景下使設(shè)備具備"聽覺認(rèn)知"能力,用戶可感知到設(shè)備從"被動(dòng)接收指令"轉(zhuǎn)變?yōu)?主動(dòng)適應(yīng)場景,核心技術(shù)閉環(huán)(聲學(xué)采樣→動(dòng)態(tài)優(yōu)化→環(huán)境分析→精準(zhǔn)輸出)能帶來核心生活場景革新,如通勤、辦公、居家等,從喧囂鬧市到靜謐空間,每一次聲音的處理都是"主動(dòng)感知"技術(shù)的生動(dòng)演繹,它正引領(lǐng)我們邁向面向真實(shí)世界的多場景自適應(yīng)人機(jī)交互新紀(jì)元,讓智慧感知深度融入生活,重塑每一個(gè)與聲音相伴的瞬間,為生活注入更智能、更貼心的體驗(yàn)。
智慧醫(yī)療健康:
個(gè)性化監(jiān)測與關(guān)懷
智慧醫(yī)療健康場景正呈現(xiàn)"感知-解析-響應(yīng)"全鏈路的突破性革新 。例如AI助聽設(shè)備可精準(zhǔn)處理環(huán)境音,濾除干擾,動(dòng)態(tài)補(bǔ)償個(gè)體聽覺差異,讓用戶清晰感知聲音,實(shí)現(xiàn)更貼心的健康關(guān)懷。當(dāng)用戶發(fā)現(xiàn)自己的咳嗽聲能被轉(zhuǎn)化為肺炎風(fēng)險(xiǎn)指數(shù),當(dāng)帕金森患者從語音震顫分析中獲得黃金干預(yù)期,當(dāng)?shù)胤椒窖圆辉俪蔀獒t(yī)患溝通壁壘,語音交互已超越工具屬性,成為貫穿預(yù)防-診斷-治療-康復(fù)全流程的醫(yī)療新界面。這種變革不僅體現(xiàn)在參數(shù)提升,更讓每個(gè)生命個(gè)體感知到:醫(yī)療健康服務(wù)開始真正"聽懂"并"理解"人類最自然的表達(dá)方式。
AI機(jī)器人:
聽覺系統(tǒng)的場景化演進(jìn)
AI機(jī)器人可通過聲學(xué)智能實(shí)現(xiàn)從物理執(zhí)行到環(huán)境共生的跨越式進(jìn)化,通過AI聲學(xué)降噪算法與AI聲學(xué)分類算法的處理,AI機(jī)器人能夠精準(zhǔn)捕捉真實(shí)世界的聲音信息,并對(duì)聲音事件與聲音情感進(jìn)行深度解析,實(shí)時(shí)構(gòu)建環(huán)境模型,讓機(jī)器人能夠理解所處的聲學(xué)環(huán)境。家庭服務(wù)機(jī)器人能根據(jù)廚房環(huán)境底噪中的燃?xì)庑孤┨卣饕籼崆?秒報(bào)警,當(dāng)教育機(jī)器人從兒童斷續(xù)抽泣聲中識(shí)別焦慮指數(shù)并切換安撫模式,人類正見證機(jī)器人突破物理傳感器的局限,它們不僅能“聽見”聲音,更能理解聲波背后隱藏的機(jī)器狀態(tài)、生理特征與情感意圖,這種基于聲學(xué)全息感知的交互進(jìn)化,讓人機(jī)協(xié)作從精準(zhǔn)響應(yīng)升級(jí)為預(yù)見性共融。
聲智科技在人機(jī)交互框架領(lǐng)域取得的技術(shù)突破,不僅體現(xiàn)在評(píng)測體系性能指標(biāo)的量化提升,更重要的是實(shí)現(xiàn)了從基礎(chǔ)功能實(shí)現(xiàn)到體驗(yàn)價(jià)值創(chuàng)造的全鏈路技術(shù)升級(jí)。伴隨全球AI產(chǎn)業(yè)的高速演進(jìn),工業(yè)機(jī)器人、智能汽車、精準(zhǔn)醫(yī)療及航天科技等戰(zhàn)略領(lǐng)域正面臨智能化升級(jí)的迫切需求。依托新一代人機(jī)交互框架的技術(shù)優(yōu)勢(shì),聲智通過構(gòu)建智能聽覺感知系統(tǒng)與決策中樞系統(tǒng)的深度協(xié)同,以非線性聲學(xué)計(jì)算為技術(shù)底座,推動(dòng)AI交互范式從被動(dòng)響應(yīng)向主動(dòng)認(rèn)知演進(jìn)。該系統(tǒng)不僅能實(shí)現(xiàn)毫秒級(jí)實(shí)時(shí)需求響應(yīng),更通過多模態(tài)行為建模與預(yù)測算法,在用戶需求顯性化前完成服務(wù)預(yù)判。
我們創(chuàng)新性地將非線性聲學(xué)計(jì)算與深度強(qiáng)化學(xué)習(xí)相結(jié)合,構(gòu)建出具備環(huán)境認(rèn)知與意圖推理能力的智能交互系統(tǒng)。這種技術(shù)融合使機(jī)器系統(tǒng)突破傳統(tǒng)規(guī)則引擎的限制,形成場景自適應(yīng)的動(dòng)態(tài)決策能力:通過實(shí)時(shí)聲場建模準(zhǔn)確解析物理環(huán)境特征,結(jié)合強(qiáng)化學(xué)習(xí)算法持續(xù)優(yōu)化交互策略,最終實(shí)現(xiàn)"場景理解-用戶認(rèn)知-行為預(yù)判"的三維智能閉環(huán)。這種進(jìn)化將重新定義人機(jī)交互范式,使智能設(shè)備具備情境感知與自主決策能力,推動(dòng)智能服務(wù)向認(rèn)知智能階段演進(jìn)。
值得強(qiáng)調(diào)的是,真實(shí)場景數(shù)據(jù)與用戶體驗(yàn)指標(biāo)的深度融合正成為技術(shù)迭代的核心驅(qū)動(dòng)力。聲智建立的"數(shù)據(jù)-算法-體驗(yàn)"協(xié)同進(jìn)化機(jī)制,不僅加速非線性聲學(xué)模型的場景適應(yīng)能力,更通過強(qiáng)化學(xué)習(xí)框架實(shí)現(xiàn)交互策略的持續(xù)優(yōu)化。這種雙向賦能的技術(shù)路徑,正在重塑人機(jī)協(xié)作的底層邏輯,為各行業(yè)智能化轉(zhuǎn)型提供可進(jìn)化的認(rèn)知中樞系統(tǒng)。但我們需要清醒認(rèn)識(shí)到,真正的真實(shí)世界體驗(yàn)?zāi)P蜕形凑嬲涞兀貏e是在物理規(guī)律約束建模、多模態(tài)感知融合等關(guān)鍵領(lǐng)域仍存在突破空間,AI時(shí)代才剛剛開始。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
29615瀏覽量
212178 -
AI
+關(guān)注
關(guān)注
88文章
34779瀏覽量
277068 -
聲智科技
+關(guān)注
關(guān)注
0文章
53瀏覽量
1705
原文標(biāo)題:聲智全球首發(fā)新一代人機(jī)交互框架:非線性聲學(xué)與強(qiáng)化學(xué)習(xí)讓AI融入真實(shí)世界
文章出處:【微信號(hào):聲智科技,微信公眾號(hào):聲智科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
聲學(xué)技術(shù)如何重構(gòu)人機(jī)交互生態(tài)
聲智科技重新定義下一代人機(jī)交互標(biāo)準(zhǔn)
愛普生XV7021BB陀螺儀傳感器在人機(jī)交互中的應(yīng)用

為什么開關(guān)柜人機(jī)交互裝置集成一鍵順控,可以替代開關(guān)柜操顯裝置

清華牽頭深開鴻參與:混合智能人機(jī)交互系統(tǒng)獲批立項(xiàng)
啟英泰倫新推出多意圖自然說,重塑離線人機(jī)交互新標(biāo)準(zhǔn)!

芯海科技ForceTouch3.0:重塑人機(jī)交互新境界

新的人機(jī)交互入口?大模型加持、AI眼鏡賽道開啟百鏡大戰(zhàn)

評(píng)論