實時通信應用程序(如虛擬協作和內容創建應用程序)的音頻和視頻質量是衡量用戶實時通信體驗的真正標準。他們嚴重依賴網絡帶寬和用戶設備質量。
狹窄的網絡帶寬和低質量的設備會產生不穩定且嘈雜的音頻和視頻輸出。由于用戶同時產生和消費音頻和視頻,因此可損壞流的數量增加,這一問題往往變得更加復雜。用戶通過部署內容創建工具進一步加劇了音頻和視頻擁塞。
為了使您能夠增強實時通信應用程序的實時音頻和視頻質量, NVIDIA Maxine提供 GPU – 加速 SDK 來執行以下操作:
改進標準麥克風和網絡攝像頭經驗通過視頻效果、音頻效果和 AR SDK 功能。
支持將多個音頻、視頻和增強現實功能實時鏈接到端到端管道中使用 Maxine 構建新的或集成到已構建的端到端管道中。
包括轉錄和翻譯當與 NVIDIA Riva一起使用 Maxine 時,這是一個用于構建對話 AI 應用程序的 SDK 。
簡言之, Maxine 為具有高音頻和視頻質量的虛擬協作和內容創建應用程序提供了最高的性能,無論是在 PC 機、內部部署還是在具有 GPU 的云數據中心。
在本文中,您將了解:
用戶在使用 Maxine SDK 進行實時通信應用時體驗到的音頻和視頻增強功能。
使用 Maxine 、 NVIDIA 視頻編解碼器 SDK和 Riva 構建端到端管道的好處。
Maxine SDK 的真實示例在視頻會議、內容創建和實時流媒體應用程序中提供了集成功能。
圖 1 與 Maxine 和 Riva SDK 的端到端管道
將標準音頻和視頻設備轉換為智能設備
NVIDIA Maxine 由視頻特效 SDK 、音頻特效 SDK 和 AR SDK 組成,具有 GPU – 經過數十萬小時培訓開發的最先進的人工智能加速功能。
使用Maxine 視頻效果 SDK,您可以將標準網絡攝像頭輸入轉換為高質量視頻。視頻改進如下:
圖像更清晰,細節更豐富,通過 Maxine 超分辨率和放大功能實現。
顯著降低網絡攝像頭傳感器類型、曝光和低照度造成的視頻噪音集成了 Maxine 視頻降噪功能。
塊狀偽影、響聲和蚊子噪音消除應用 Maxine 偽影減少功能。
用戶選擇的虛擬背景,通過虛擬背景功能啟用(圖 2 )。
有關如何使用標準網絡攝像頭輸入運行這些效果并將其集成到應用程序中的更多信息,請參閱將嘈雜的低分辨率視頻轉換為高質量視頻,為最終用戶帶來迷人的體驗。
Maxine 音頻效果 SDK提供的人工智能模型可以消除幾乎任何類型的音頻噪音–阻礙窄帶、寬帶和超寬帶音頻,并提高通話質量。使用 Maxine 解決音頻質量差問題的好處如下:
沒有不必要的背景噪音例如交流噪音、建筑噪音、交通噪音或鍵盤敲擊聲。有關通過噪聲消除功能消除的背景噪聲類型的完整列表的更多信息,請參閱關于背景噪聲抑制效果。
沒有無法理解的聲音或聲音失真,也就是說,在具有反射表面的大空間中說話時,不會出現混響。通過 Maxine Room 回聲消除功能可實現消除。
為了獲得更好的端到端質量,您可以組合 Maxine audio effects 功能。有關如何構建具有卓越音質的虛擬協作和內容創建應用程序的更多信息,請參閱為虛擬協作和內容創建應用程序實現無噪音音頻。
Maxine 增強現實 SDK使您能夠從網絡攝像頭視頻中創建有趣且引人入勝的 AR 效果,并在應用程序中使用這些效果來吸引用戶、了解用戶情緒或創建 3D 照片逼真的化身。
Maxine AR SDK 提供人臉跟蹤、人臉地標跟蹤和人臉網格功能(圖 3 )。
圖 3 。 Maxine AR 人臉相關特征示意圖
面跟蹤在面周圍創建邊界框,并隨時間跟蹤面位置。
人臉地標跟蹤識別鼻子、眼睛和嘴唇等面部特征,并實時跟蹤它們。
人臉網格用 3D 網格表示人臉, 3D 網格模擬用戶實時變化的人臉,可用于人臉身份驗證和構建化身。
人臉跟蹤和人臉地標跟蹤可用于跟蹤駕駛員注意力,或用于面罩和眼鏡檢測應用。
使用 Maxine Body Pose Estimation 功能,您可以創建用于理解用戶姿勢的應用程序,并將其用于人體活動識別、運動傳輸和實時虛擬交互。
快速構建實時的端到端管道
在構建音頻和視頻管道時,開發人員通常自定義 AI 模型以實現所需的音頻和視頻效果。此外,他們的管道必須支持多種平臺,如嵌入式、 PC 和服務器,還必須滿足低延遲和高吞吐量的視頻處理要求。事實證明,這樣的管道是計算密集型的。通常在運營成本和音頻和視頻流質量之間進行權衡。
NVIDIA Maxine 及其周圍的生態系統完全有能力應對這一挑戰。通過利用 NVIDIA GPU s 提供的加速功能和最先進的 AI 模型功能,您可以構建提供更好用戶體驗的應用程序,同時管理相關成本。這就是它的工作原理。
Maxine AI 功能
NVIDIA Maxine 的核心是三個 SDK ,它們提供多種 AI 功能。這些功能提高了視頻分辨率,消除了音頻和視頻中的噪音,并提供了獨特的功能。
圍繞 Maxine 的 NVIDIA 生態系統由兩個關鍵產品 NVIDIA 視頻編解碼器 SDK和 NVIDIA Riva 組成。
使用視頻編解碼器 SDK ,您可以訪問提供硬件加速編碼和解碼功能的 NVNC 和 NVDEC API 。
使用 NVIDIA Riva ,您可以構建對話 AI ,通過提供轉錄和翻譯等功能來幫助增強虛擬協作體驗。
所有這些特性都是 GPU 加速的,因此可以處理的介質量遠遠高于基于 CPU 的管道。
例如,考慮一下德國的一個生產層經理,他與美國的高管們在關鍵業務決策上進行遠程互動。工廠往往位于互聯網連接有限的偏遠地區,生產車間往往是淹沒在大量背景噪音中的大房間。
使用 Maxine 噪音消除功能,經理可以消除生產車間的背景噪音。
通過消除房間回聲,他們可以消除音頻混響。
通過 Riva 翻譯,生產車間經理和高管可以用他們喜歡的語言進行溝通。
通過視頻噪聲消除和超分辨率,一個嘈雜的 360p 視頻被轉換成清晰的 1440p 視頻。
經理可以用干凈的背景掩蓋生產車間的雜亂。
圖 4 強調了使用和不使用 Maxine 時用戶體驗的巨大差異。
圖 4 具有 Maxine 生態系統的視頻會議管道:Maxine,視頻編解碼器和Riva
模塊化 Maxine 設計產品的優勢在于,您可以輕松選擇和集成現有管道中所需的 SDK ,或者從頭開始構建新的端到端管道。 Maxine 和圍繞 Maxine 的生態系統使您能夠快速構建一個高吞吐量的端到端管道,接收嘈雜的數據流,并將其實時轉換為一種無噪音、高質量、高實用性的體驗,可供所有設備使用。
使用 Maxine SDK 的增壓應用程序的真實示例
為了展示如何集成 Maxine 特性,我們選擇了幾個實際示例,每個主要用例一個。
阿瓦亞空間
阿瓦亞空間是一個基于 CPaaS 的現代會議和工作流協作平臺,提供高清晰度視頻會議、視頻合成、會議錄制、實時轉錄和云級別的持久協作。
Avaya 的目標是實現大規模提供實時、高質量媒體服務的民主化,無論用戶的設備質量如何,也不管用戶在世界各地的位置如何,以瀏覽器為第一體驗。為了實現這些目標并優化媒體處理, Avaya 將底層基于云的 CPaaS 與 NVIDIA Maxine 技術相結合。
通過將一系列 GPU 連接到容器和虛擬機的云部署,可實現 100% 的正常運行時間。服務器根據需求進行旋轉,便于與數千名參與者進行大規模、實時、雙向視頻交互會議。
Avaya 使用 Maxine Noise Remove 功能來滿足計算成本高、延遲有限的預算,以滿足人們對干凈清晰的音頻的需求,而無背景噪音,并且由于設備質量低和網絡性能差,對音頻和語音間隙的容忍度較低。與傳統的 DSP 方法相比, Maxine 噪聲消除功能更強大,涵蓋范圍更廣。它可以在不在端點上運行的情況下實現低延遲,但盡可能靠近網絡邊緣。此外,由于基于 AI 的算法延遲低于 40ms ,因此音頻管道中沒有緩沖。
Avaya 還使用獨特的 Maxine 虛擬背景功能,將多個揚聲器疊加在演示文稿上,以獲得更具吸引力的演示文稿。最終用戶不必擁有特殊的硬件或下載任何軟件。他們可以在任何設備上實現這一點,并且可以靈活地創建不同類型的布局。
借助 Maxine 虛擬背景功能, Avaya 為移動和處于復雜體位的揚聲器提供強大的視頻分割。有關 Maxine 如何使 Avaya 提供專業、高質量、無處不在、可從任何平臺訪問的最終用戶體驗的更多信息,請參閱 Avaya 最近的 GTC 課程 NVIDIA 的 Maxine 如何改變我們的溝通方式。
Notch
Notch是一種用于 3D 、 VFX 和實時事件視覺效果的實時圖形工具。為舞臺表演創造效果通常需要一個單獨的昂貴攝像頭和跟蹤解決方案來跟蹤身體運動。在某些情況下,生成視覺效果對于處理完整的攝影機提要(包括背景)變得很棘手。
通過 Maxine 實時人臉跟蹤和身體姿勢估計功能, Notch 使藝術家能夠通過減少對定制硬件跟蹤系統的需求,大大簡化現場活動舞臺的設置。取而代之的是,凹口可以使用標準的攝像設備。用戶可以進一步使用骨骼體數據的運動捕捉裝備來控制 3D 角色動畫。
通過 Maxine AI 驅動的虛擬背景功能, Notch 用戶可以創建視頻處理效果,將人與背景分開,并將處理僅應用于舞臺上的人才或背景本身。這一簡單的過程具有高分辨率和精度,適用于復雜條件,如深色衣服和復雜的照明條件。有關更多信息,請參閱演示視頻切口 0 。 9 。 23 。 195 NVIDIA 貼片釋放走查。
Be.Live
另一個使用 Maxine 虛擬背景功能的例子是在實時流媒體空間。Be.Live是一個實時流媒體工作室,幫助企業、 SMB 和零售商創建專業的實時流媒體,而無需學習曲線。它們在云中運行與虛擬背景相關的所有進程。
無論是希望與觀眾建立聯系的小企業,還是建立雇主與雇員溝通的企業, Maxine 和 Be 。 Live 都提供了一種解決方案,使頂層背景刪除在主機后面沒有綠色屏幕。除了享受高質量的背景,無需升級網絡攝像頭和工作室設置,用戶還可以節省計算能力,體驗更好的流媒體體驗。
Be 。 Live 的目標是在 Live Commerce 生態系統中實施 Maxine 虛擬背景創新,因為該技術可以幫助許多品牌在無需太多投資的情況下啟動其實時購物流。
關于作者
About Gordana Neskovic
Gordana Neskovic 是AI/DL產品營銷團隊的成員,負責 NVIDIA Maxine。在加入 NVIDIA 之前,Gordana曾在VMware、Wells Fargo、Pinterest、SFO-ITT和KLA Tencor擔任過各種產品營銷、數據科學家、AI架構師和工程職位。她擁有博士學位。圣塔 Clara 大學,塞爾維亞貝爾格萊德大學電氣工程碩士和學士學位。
About Tanay Varshney
Tanay Varshney 是 NVIDIA 的一名深入學習的技術營銷工程師,負責廣泛的 DL 軟件產品。他擁有紐約大學計算機科學碩士學位,專注于計算機視覺、數據可視化和城市分析的橫斷面。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
5076瀏覽量
103735 -
揚聲器
+關注
關注
29文章
1319瀏覽量
63261 -
應用程序
+關注
關注
38文章
3292瀏覽量
57920
發布評論請先 登錄
相關推薦
NVIDIA技術助力Pantheon Lab數字人實時交互解決方案
AWTK-WEB 快速入門(2) - JS 應用程序
![AWTK-WEB 快速入門(2) - JS <b class='flag-5'>應用程序</b>](https://file.elecfans.com/web2/M00/50/DA/pYYBAGLH6TyAB71EAAAPQ7KgtYA038.png)
AWTK-WEB 快速入門(1) - C 語言應用程序
![AWTK-WEB 快速入門(1) - C 語言<b class='flag-5'>應用程序</b>](https://file.elecfans.com/web2/M00/50/DA/pYYBAGLH6TyAB71EAAAPQ7KgtYA038.png)
日立鐵路借助NVIDIA技術加速實時鐵路分析
IB Verbs和NVIDIA DOCA GPUNetIO性能測試
![IB Verbs和<b class='flag-5'>NVIDIA</b> DOCA GPUNetIO性能測試](https://file1.elecfans.com/web2/M00/04/E1/wKgaombIUG6AWlOKAAH2SzSPRP8059.png)
借助NVIDIA DOCA 2.7增強AI 云數據中心和NVIDIA Spectrum-X
NVIDIA Omniverse USD Composer能用來做什么?如何獲取呢?
![<b class='flag-5'>NVIDIA</b> Omniverse USD Composer能用來做什么?如何獲取呢?](https://file1.elecfans.com/web2/M00/E8/01/wKgaomZKsNKANroqAAA71CZQ3cM464.png)
Anthropic推出iPhone應用程序和業務層
使用Docker部署Go Web應用程序步驟
![使用Docker部署Go Web<b class='flag-5'>應用程序</b>步驟](https://file1.elecfans.com/web2/M00/D1/67/wKgZomYjG8yAboHUAAAU3ZokeRA952.png)
NVIDIA數字人技術加速部署生成式AI驅動的游戲角色
![<b class='flag-5'>NVIDIA</b>數字人技術加速部署生成式AI驅動的游戲角色](https://file1.elecfans.com/web2/M00/C7/83/wKgZomYUo5aAGs_tAABjD6mp1Pc955.png)
評論