(文章來源:cnBeta)
外媒報道稱,為保障 Duo 通話服務在不穩定連接狀態下的音頻質量,谷歌推出了一項名叫 WaveNetEQ 的音質改善方案。 據悉,其基于谷歌 DeepMind 部門的相關技術,旨在利用人工加入的噪音來抑制音頻的抖動。這種噪音聽起來就像人類在說話,但其實是通過機器學習技術產生的。
如果你曾經撥打過網絡電話,那肯定多多少少地經歷過因連接不穩定而導致的音頻抖動。當通話期間的部分音頻數據包在通信過程中丟失、延遲過高、或順序錯誤時,就有可能發生這樣的情況。谷歌表示,99% 的 Duo 通話都會出現數據包丟失,其中 20% 的丟失率超過 3%、另有 10% 的丟失率超過 8% 。
每款通信應用都有采取某種方式來處理丟包問題,但谷歌表示,傳統的丟包掩飾(PLC)過程,或導致高達 60ms 的空缺。
相比之下,基于 DeepMind 神經網絡技術的 WaveNetEQ 解決方案,已經在 48 種不同語言的 100 多個揚聲器數據上展開了訓練。為增加說服力,谷歌還放出了一些 WaveNetEQ 與常見的 PLC 技術的比較音頻。當然,新技術能夠轉換多少音頻,還是有一定的局限的。谷歌表示,WaveNetEQ 旨在替換較短的音頻間隔,而不是真人通話期間漏掉的整個單次。因此在 120ms 之后,這套系統會淡出并產生靜音。
通過評估,谷歌確保了 WaveNetEQ 不會引入任何新運算的重音,此外所有處理都能夠在用戶的設備端進行,畢竟 Google Duo 默認就開啟了端到端加密。一旦網絡連接變得順暢,真人的音頻會立即恢復,WaveNetEQ 將無縫地淡出介入。目前該技術已在 Pixel 4 智能機上進行測試,后續該公司還將向更多設備推廣。
(責任編輯:fqj)
-
谷歌
+關注
關注
27文章
6226瀏覽量
107692 -
機器學習
+關注
關注
66文章
8495瀏覽量
134199
發布評論請先 登錄
借助谷歌Gemini和Imagen模型生成高質量圖像

利用Arm Kleidi技術實現PyTorch優化

即時通話軟件音頻傳輸質量測試方案

什么是機器學習?通過機器學習方法能解決哪些問題?

NPU與機器學習算法的關系
高通與谷歌達成多年技術合作,共推汽車行業數字化轉型
Snapchat聊天機器人集成谷歌Gemini技術
【《時間序列與機器學習》閱讀體驗】+ 時間序列的信息提取
機器視覺在焊接質量檢測中的應用
【「時間序列與機器學習」閱讀體驗】+ 簡單建議
機器視覺光源的作用、分類及實際應用
深度學習與傳統機器學習的對比
名單公布!【書籍評測活動NO.35】如何用「時間序列與機器學習」解鎖未來?
利用飛秒激光改善鉍薄膜質量的光電探測

評論