在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

思必馳與上海交大聯合實驗室12篇論文被ICASSP 2025收錄

思必馳 ? 來源:思必馳 ? 2025-05-17 11:41 ? 次閱讀

2025年度國際聲學語音與信號處理會議——ICASSP在印度海得拉巴舉辦,作為語音領域的國際會議,其憑借權威、廣泛的學界以及工業界影響力,備受各方關注。今年許多學者因故無法前往印度參加會議。考慮到廣大學者的現場交流需求,IEEE信號處理學會特別安排ICASSP 2025在5月23日-25日于蘇州舉辦衛星會議。思必馳-上海交大聯合實驗室團隊將參與本次現場交流。

在本次ICASSP 2025會議上,思必馳-上海交大聯合實驗室共發表了12篇論文,涵蓋了音頻信息處理、語音喚醒識別、語音合成、多模態生成等研究方向,實現了若干針對噪聲環境、低資源、多語種、多模態等場景的技術突破,為思必馳的全鏈路語音語言核心技術實力以及業務創新能力帶來多重增益。下面介紹本次發表的部分典型研究成果:

音頻信息處理

Neural Directed Speech Enhancement with Dual Microphone Array in High Noise Scenario

針對多說話人場景實現了目標語音的靈活增強,僅使用雙麥克風陣列就顯著提高了語音質量和下游任務的性能,尤其是在極低信噪比條件下表現出色。

5ceb0072-3163-11f0-afc8-92fbcf53809c.png

工作簡介:在多說話人場景中,利用空間特征對增強目標語音極為關鍵,但麥克風陣列有限時,構建緊湊的多通道語音增強系統頗具挑戰,極低信噪比下更是難上加難。為此,我們創新提出三導向空間選擇方法,打造靈活框架,用三個導向向量指導增強、界定范圍。具體引入因果導向的U型網絡(CDUNet)模型,以原始多通道語音與期望增強寬度為輸入,據此依目標方向動態調導向向量,結合目標和干擾信號角分離微調增強區域。該模型僅憑雙麥克風陣列,就在語音質量與下游任務表現上十分出色,還具備實時操作、參數少的特性。

語音喚醒識別

NTC-KWS: Noise-aware CTC for Robust Keyword Spotting

針對噪聲環境下的關鍵詞識別提出“NTC-KWS”,強化了在車載、家電等噪音場景下的喚醒和識別精準度,也為資源受限設備帶來高魯棒性的端到端方案。

5d011baa-3163-11f0-afc8-92fbcf53809c.png

工作簡介:當前基于CTC的小型化關鍵詞識別系統在低資源計算平臺上部署時,因模型尺寸和計算能力限制,面臨噪聲過擬合問題,導致高誤報率,尤其在復雜聲學環境下性能顯著下降。因此,我們在CTC-KWS的框架下提出一種噪聲感知關鍵詞識別系統(NTC-KWS),創新性地引入兩類額外的通配符弧對噪聲進行建模:自環弧處理噪聲導致的插入錯誤,旁路弧應對噪聲過大造成的掩蔽和干擾,旨在提高模型在噪聲環境中的魯棒性。實驗表明,NTC-KWS在各種聲學條件下優于現有端到端系統和CTC-KWS基線,低SNR條件下優勢尤為顯著。該工作為資源受限設備提供了輕量化且高魯棒的關鍵詞識別方案,其噪聲建模機制可擴展至其他端到端語音敏感任務。

語音合成

VALL-T: Decoder-Only Generative Transducer for Robust and Decoding-Controllable Text-to-Speech

針對魯棒、可控語音合成提出“VALL-T”(生成式Transducer模型),進一步提升了思必馳在多語種、多場景高保真TTS方面的性能穩定性。

5d27d362-3163-11f0-afc8-92fbcf53809c.png

工作簡介:當前基于decoder-only Transformer架構的TTS模型缺乏單調對齊約束,導致發音錯誤、跳詞和難以停止等幻覺問題,嚴重制約其實際應用可靠性。

因此,我們提出了VALL-T,即生成式Transducer模型,它為輸入音素序列引入了移位的相對位置編碼,明確地限制了單調的生成過程,同時保持了decoder-only Transformer的架構。實驗表明,我們的模型對幻覺表現出更好的魯棒性,詞錯誤率相對降低了28.3%。此外,還可以通過對齊的可控性實現跨語言適配和長語音穩定合成。

多模態生成

Smooth-Foley: Creating Continuous Sound for Video-to-Audio Generation Under Semantic Guidance

“Smooth-Foley” 視頻到音頻生成模型,擴展了智能汽車、智能家居、虛擬數字人等垂域解決方案上的產品形態,為思必馳進一步拓展視聽融合交互提供技術儲備。

5d4b8ef6-3163-11f0-afc8-92fbcf53809c.png

工作簡介:視頻到音頻(V2A)生成任務需同步滿足高精度時間對齊與強語義一致性,但現有方法因低分辨率的語義條件與時間條件不夠精確的限制,難以處理動態物體視頻中的復雜聲景生成。因此,我們提出了Smooth-Foley,一種視頻到音頻的生成模型,不僅在生成過程提供文本標簽的語義引導,以增強音頻的語義和時間對齊;還通過訓練幀適配器和時間適配器以利用預訓練的文本到音頻生成模型。實驗表明,Smooth-Foley在連續聲音場景和一般場景中均優于現有模型。生成的音頻具有更高的質量并更好遵循物理規律。

多模態生成

SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs

“SLAM-AAC”通過高性能模型、創新的數據增強和解碼策略,顯著提升了音頻字幕生成的性能。該項工作是開源項目“SLAM-LLM”的一部分,積極推動多模態大模型技術的創新與發展,促進全球研究者的技術交流與合作。

5d6cc210-3163-11f0-afc8-92fbcf53809c.png

工作簡介:盡管目前音頻預訓練模型與大語言模型(LLMs)的發展為自動音頻描述(AAC)提供了更強的音頻理解和文本生成能力,但如何高效對齊多模態特征并利用有限數據仍是關鍵問題。因此,我們提出SLAM-AAC,通過兩階段創新策略優化AAC:首先,借鑒機器翻譯中的回譯方法,擴展Clotho數據集的文本多樣性,緩解數據稀缺的問題;其次在推理階段引入即插即用的CLAP-Refine方法,從多個束搜索生成的文本描述中選擇與音頻最匹配的描述。實驗表明,SLAM-AAC在Clotho V2和AudioCaps數據集上顯著超越主流模型,該工作為小規模音頻-文本數據下的AAC提供了可擴展解決方案,使其有可能用于其他多模態生成任務。

ICASSP (International Conference on Acoustics, Speech and Signal Processing) 即國際聲學、語音與信號處理會議,是IEEE(電氣電子工程師協會)主辦的全世界最大的,也是最全面的信號處理及其應用方面的頂級會議,在國際上享有盛譽并具有廣泛的學術影響力。2025年度ICASSP會議主題是 “Celebrating Signal Processing”,旨在慶祝信號處理領域的卓越成就與創新突破。

長期以來,思必馳深度融入國內外學術前沿陣地,在 ICASSP、INTERSPEECH、ACL、EMNLP、AAAI 等頂尖學術大會上屢創佳績,持續輸出高質量科研成果。思必馳-上海交大聯合實驗室通過一系列高水準論文,展現出在人工智能語音語言關鍵技術領域的深度探索與重大突破,為行業發展注入強勁動力。思必馳堅定科研與產業應用密切結合,也將繼續探索科技成果的應用轉化。

作為專業的對話式人工智能平臺型企業,思必馳具有源頭技術創新和應用創新的能力,自2022年7月獲國家科技部批準建設“語言計算國家新一代人工智能開放創新平臺”以來,接連于2023-2024年獲批組建蘇州市、江蘇省、長三角三級創新聯合體,并于2025年攜手上海交通大學、蘇州大學,牽頭組建“江蘇省語言計算及應用重點實驗室”,成為國家人工智能戰略科技力量的重要組成部分。

思必馳承擔了包括國家重點研發計劃、國家發改委“互聯網+”重大工程和人工智能創新發展工程、國家工信部人工智能與實體經濟深度融合項目、長三角科技創新共同體聯合攻關計劃項目等十余項國家級、省部級項目,展現出卓越的科研實力與項目落地能力。

思必馳深耕語音語言領域,憑借自主研發的核心技術多次在國際研究機構評測中奪得冠軍;曾三度斬獲國內人工智能最高獎“吳文俊獎”,榮獲中國專利優秀獎,以及信通院車載智能語音交互系統最高級別認證等重要榮譽。技術創新能力備受全球矚目,被高盛全球人工智能報告列為關鍵參與者,也被Gartner評為東亞五大明星AI公司之一。

截至2024年年底,思必馳擁有近100項全球獨創技術,已授權知識產權1597件,其中已授權發明專利633項,參與了71項國家/行業/團體標準,獲得23項國家級的產品認證。近期,大模型人機對話技術創新與產業賦能發展提速,思必馳堅持自主的大模型技術路線,即“構建可靠性優先的1+N分布式智能體系統:1 個中樞大模型+ N 個垂域模型及全鏈路交互組件組成全功能系統”,以任務型交互為核心,結合智能硬件感知優勢,構建垂域大模型和中樞大模型系統,服務企業客戶。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 音頻
    +關注

    關注

    29

    文章

    3006

    瀏覽量

    82936
  • 信息處理
    +關注

    關注

    0

    文章

    36

    瀏覽量

    10155
  • 思必馳
    +關注

    關注

    4

    文章

    319

    瀏覽量

    14986

原文標題:ICASSP2025蘇州衛星會議|思必馳-上海交大聯合實驗室12篇論文將于語音技術頂會現場交流

文章出處:【微信號:思必馳,微信公眾號:思必馳】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    蘇州市領導蒞臨調研

    近日,蘇州市委教育局工委書記、市教育局局長周志芳率隊蒞臨進行調研,董事長、CEO高始
    的頭像 發表于 04-24 15:40 ?186次閱讀

    出席語言計算技術創新專題研討會

    近日,與東南大學蘇州校區聯合舉辦語言計算技術創新專題研討暨校企合作洽談會。
    的頭像 發表于 04-17 15:42 ?169次閱讀

    亮相北京InfoComm China 2025

    400家頂尖科技品牌,攜會議辦公產品驚艷亮相(展位號:MA6-01),用AI科技帶來顛覆性會議辦公體驗。
    的頭像 發表于 04-16 16:39 ?390次閱讀

    中汽信科牽頭成立汽車北斗應用聯合實驗室

    近日,由中汽信科牽頭組建的“汽車北斗應用聯合實驗室”(以下簡稱“聯合實驗室”)正式通過中國產學研合作促進會評審,并獲批授牌。
    的頭像 發表于 03-27 15:22 ?423次閱讀

    江蘇省領導蒞臨調研考察

    近日,江蘇省委常委、省委宣傳部部長徐纓一行蒞臨蘇州進行調研,受到董事長兼CEO高始興
    的頭像 發表于 03-24 16:32 ?356次閱讀

    全新AI辦公本4G暢寫版即將上市

    智能辦公設備新品即將發布,全新「AI辦公本·4G暢寫版」將于3月28日在全國線下門店
    的頭像 發表于 03-21 16:31 ?536次閱讀

    南京大學與安路科技成立FPGA創新教育聯合實驗室

    3月15日,在南京大學電子科學與工程學院報告廳舉辦的2025電子信息實驗技術教學建設研討會上,安路科技與南京大學迎來關鍵合作進展——“南京大學-上海安路信息科技股份有限公司FPGA創新教育聯合
    的頭像 發表于 03-20 10:38 ?407次閱讀

    入選國家級專精特新“小巨人”企業

    憑借深厚的技術積累、卓越的創新能力以及穩健的市場表現,成功入選2024年工信部第六批國家級專精特新“小巨人”企業名單。近日,2025年蘇州工業園區新型工業化推進會議順利舉行,會上
    的頭像 發表于 01-08 16:32 ?654次閱讀

    奧拓電子吳涵渠董事長受邀出席上海交大活動

    的合作,一同創立了“智能視訊聯合實驗室”。作為上海交大杰出的校友,奧拓電子吳涵渠董事長受邀出席了本次活動,并在會上發表演講。同時,通過路演活動對交大的優秀創業項目有了更深入的了解。
    的頭像 發表于 12-10 16:10 ?411次閱讀

    小米與聚飛光電成立聯合實驗室

    近日,“小米&聚飛聯合實驗室”在惠州聚飛正式揭牌成立。該實驗室將以Mini背光技術創新為主要方向,進一步強化雙方在顯示終端領域的多元化合作。
    的頭像 發表于 11-27 10:45 ?512次閱讀

    AI辦公本Turbo重磅發布

    近日,AI辦公本新品發布會如約而至,IOT事業部首席產品官馬斌斌詳細介紹了
    的頭像 發表于 10-31 14:23 ?1179次閱讀

    10月份大事件盤點

    日前,省科技廳黨組書記、廳長徐光輝一行在進行調研。董事長、CEO高始興,副總裁李春梅
    的頭像 發表于 10-30 15:01 ?598次閱讀

    上海交大電院與奧拓電子共建智能視訊聯合實驗室

    7月23日上午,上海交通大學電子信息與電氣工程學院與深圳市奧拓電子股份有限公司共建的“智能視訊聯合實驗室”在奧拓電子總部正式揭牌成立,上海交大電院黨委書記蘇躍增、院長關新平、奧拓電子董
    的頭像 發表于 07-29 14:45 ?666次閱讀

    高鴻信安出席飛騰基礎軟件聯合實驗室第三屆年會

    7月12日,飛騰基礎軟件聯合實驗室(簡稱“實驗室”)第三屆年會暨技術交流分享會在深圳順利召開。大唐高鴻信安(浙江)信息科技有限公司(簡稱“高鴻信安”)作為
    的頭像 發表于 07-15 14:07 ?749次閱讀

    MediaTek與小米集團聯合實驗室正式揭幕

    MediaTek 宣布攜手小米集團持續強化戰略合作,共同開啟更深層次的多元合作,并為位于小米深圳研發總部的「聯合實驗室」揭牌。此次「聯合實驗室」的揭幕將進一步強化雙方合作伙伴關系,推動
    的頭像 發表于 07-03 14:52 ?911次閱讀
    主站蜘蛛池模板: 欧美黄色性 | 一级做a爰片久久毛片美女图片 | 天天操综合网 | 人人干网站 | 在线高清一级欧美精品 | 97av免费视频 | 天天欧美 | 激情在线网站 | 蕾丝视频在线播放 | 久久亚洲免费视频 | www亚洲免费| 亚洲不卡视频在线 | 亚洲视频在线视频 | 午夜快播| 欧美人成一本免费观看视频 | 亚洲一级毛片免费在线观看 | 天堂网最新版www中文 | 丁香花在线视频观看免费 | 天天色资料 | 精品噜噜噜噜久久久久久久久 | bt天堂中文在线 | 性感美女视频黄.免费网站 性高清 | 午夜欧美成人久久久久久 | 天天做天天爱夜夜爽毛片毛片 | 七月丁香八月婷婷综合激情 | 色视频网| 色播影院性播影院私人影院 | www.你懂的 | 久久草在线观看 | 亚洲天天做日日做天天看2018 | 亚洲福利片 | 在线播放网址 | 色老头性xxxx老头视频 | 天天综合干 | 午夜爽爽爽 | 亚洲色播永久网址大全 | 国产农村女人一级毛片了 | 久久久综合色 | 国产一级真人毛爱做毛片 | 欧美zooz人禽交免费 | 国产伦精品一区二区三区高清 |