Santosh Singh 和 Aravind Navada
消費類娛樂對沉浸式體驗的要求越來越高,用戶希望獲得身臨其境的體驗并消費內容,聲音則是臨場感的重要組成部分。在未來,我們將更了解人類大腦處理和定位聲音的方式,由此開發出創新的聲音重現技術,助力基于視覺智能的音頻系統。ADI公司將依托前沿的飛行時間(ToF)成像器和先進的DSP技術組合,為新一代沉浸式音頻系統構建理想的平臺。
新時代消費電子娛樂設備頻頻提到"沉浸"一詞,但其真正含義是什么呢?在1999年爆火的電影《黑客帝國》中,Morpheus詢問Neo他能聞到、嘗到或觸摸到的東西是否真實,并展示他所知的真實世界不過是用計算機愚弄人的感官而已。這就是真正的沉浸式體驗,亦是人工沉浸式體驗要達成的目標。
要讓自己確信已置身于某個場景中,聲音和感觸方式是影響整個體驗的關鍵。聲音會激活大腦,決定著我們應對情境的第一反應。大腦利用聲音來更清晰地構建所處的環境或情境。聲音說服大腦相信人工構建的沉浸式體驗,在提供預期的沉浸式體驗方面發揮著至關重要的作用。
多年來,聲音重現技術取得了巨大飛躍,從基礎的單聲道音頻系統到如今的環繞音頻系統,從適合家庭影院的小型5.1(6聲道)或7.1(8聲道)配置到適合影院屏幕的大型64聲道和更高級別的配置。但在這些系統中,聲音的空間感和精度受到揚聲器數量和所處位置的限制。
新型聲音重現技術基于對大腦聲音處理和定位方式的深入了解,助力構建新一代沉浸式音頻系統,無需在聽眾周圍部署大量揚聲器。即可為家庭影院帶來360度沉浸式聲音體驗,但此類系統由于缺乏對聽眾及聽音環境的感知,這便也成為了沉浸式音頻需求的主要障礙。視覺智能與聲音重現技術的組合可應對這一挑戰,真正打造出下一代沉浸式音頻系統。
在真實場景中自然接收聲音時,我們的大腦會基于傳到左右耳的音頻信號來提取有關聲源的空間線索。這與我們的雙眼視覺系統的工作原理非常相似,大腦也是通過結合左右眼所看到的圖像來感知深度。大腦處理到達左右耳的聲音,通過比較振幅和時間延遲來推算聲源位置。這是人類在進化過程中形成的能力,也是原始社會的關鍵生存技能。
雙耳聲音重現技術旨在通過新型信號處理,在左右耳生成與真實場景相同的左右音頻信號,再現聲音的自然體驗(圖1)。但在實踐中實現這一目標并非易事,會面臨重重問題。
圖1. 來自聲源x(t)的自然接收場景,XL (t)表示到達左耳的音頻信號,XR (t)表示到達右耳的音頻信號。
記錄雙耳音頻的一種簡單方法是在真實環境中人的左右耳各部署一個麥克風,然后記錄到達每只耳朵的聲音信號,這種方法稱為雙耳記錄。然后通過耳機重現聲音,傳至聽眾的耳朵。那這種方式效果如何呢?在針對同一位聽眾進行捕捉和回放時確實有效,但由于每個人大腦定位聲音的方式不同,這一技術并非百試百靈。我們的頭/耳廓/身體對聲音的影響會在頻域中留下特定的特征,幫助我們的大腦定位聲音。這種特征因人而異,被稱為頭部相關傳遞函數(HRTF)。如想讓雙耳技術真正有效,須在聲音重現過程中聽眾的耳朵上準確再現HRTF對聲音的影響。
因此,我們需要針對每位聽眾測量并定制HRTF,不能采用通用的解決方案。研究表明,當人們體驗用其他人的HRTF制作的音頻時,其在體驗期間的聲音定位能力會顯著降低。1,2,3
在揚聲器上實現雙耳音頻還會面臨更大的挑戰。首先,來自多個揚聲器的聲音信號會相互干擾,即所謂的串擾效應(圖2)。其次是聽音環境,在聲音到達聽眾耳朵之前,它不可避免地會對聲音產生一些影響。
圖2. 立體聲揚聲器中的串擾效應。
在實現真實模擬自然聲音接收體驗時,揚聲器串擾、HRTF個性化需求以及房間/聽音環境的影響是主要的阻礙因素。而視覺系統能夠捕捉到有關聽眾和聽音環境的所有細節,有助于解決雙耳聲音重現所面臨的挑戰。
例如,可以構建為計算機視覺算法提供數據的攝像頭來捕捉聲音接收環境的三維架構信息(即房間形狀、不同表面的幾何測量細節以及存在的物體),用于計算聽音環境對聲音的影響。然后,可以在聲音重現系統中適當增加濾波器和濾波器系數以消除不良影響。雖然家庭影院音頻已采用此類系統,但它通常依賴于在校準期間使用麥克風捕捉房間對聲音的影響,如果接收位置或房間結構發生變化,則需要重新進行校準。
視覺系統可以進一步捕捉人體測量數據,比如身體位置和結構細節4,通過必要的計算將HRTF個性化,以呈現準確的空間線索(圖3)。使用聽眾頭部位置相對于揚聲器的信息和頭部尺寸,部署串擾消除算法,在揚聲器中呈現實時雙耳音頻,聽眾能夠隨意移動,同時保持理想的聲音體驗(圖4)。
圖3. 通過人體測量實現HRTF個性化。
圖4. 采用串擾消除技術,通過自由場揚聲器系統實現雙耳聲音再現。
使用音頻系統存在隱私問題,但從視覺系統獲取的攝像頭數據會經過實時處理,無需存儲或傳輸到另一臺遠程機器,因此,使用專用的計算處理器在邊緣處理視覺數據分析可以保護用戶隱私。
ADI最新的多核SHARC? DSP和先進的ToF成像器提供了硬件平臺實現音視頻融合所需的關鍵部件,以創建下一代沉浸式音頻系統(圖5)。
圖5. 下一代沉浸式音頻系統。
我們的ADSP-SC598 SOC搭載SHARC雙核和一個A55 Arm?內核,由大型片內存儲器和外部存儲器DDR接口提供支持,可滿足低延遲和內存密集型計算要求,是實現真正沉浸式音頻的理想平臺(圖6)。SHARC DSP上的計算資源,例如ADSP-SC598,可以將與音頻解碼相關的工作負載劃分至DSP內核上,在第二個SHARC內核上實現音頻回放的后處理和個性化。Arm A55可用于進行多種控制處理。6圖5所示的視覺系統可以組合使用RGB和深度攝像頭或單獨使用深度攝像頭。我們的高分辨率100萬像素ToF深度成像器ADSD3100可以捕捉毫米分辨率級別的深度圖,且能在不同的照明條件下工作,為之前所述的個性化算法(串擾消除、房間均衡、HRTF人性化等)提供了所需的高精度幾何測量數據。
圖6. 下一代沉浸式音頻系統的系統分區。
ADTF3175是基于ADSD3100 ToF深度成像器的100萬像素、75 × 75度視場(FOV) ToF模塊,它還集成了用于成像器的透鏡和光學帶通濾波器、紅外光源(包含光學元件、激光二極管、激光二極管驅動器和光電探測器)、閃存和功率調節器以生成本地電源電壓。該模塊在多個范圍和分辨率模式下進行完全校準。如需完善深度測量系統,可以將來自ADTF3175的原始圖像數據通過主機系統處理器或深度ISP進行外部處理。ADTF3175圖像數據輸出接口通過4通道移動行業處理器接口(MIPI)、攝像頭串行接口2 (CSI-2)變送器接口與主機系統進行電氣接口。該模塊編程和操作通過4線式SPI和I2C串行接口進行控制。
我們當前提供的 EVAL-MELODY-8/9開發平臺板、 EV-2159X/SC59x-EZKIT板和 CrossCore?Embedded Studio(一款基于eclipse的編輯工具)可以幫助您部署和運行我們的ADSP SOC,以實時部署和調試應用。7
Melody平臺是ADI為AVR和條形音箱應用提供的完整信號鏈解決方案。它將視頻、DSP、音頻、電源和軟件方面的一流ADI組件結合到組合系統解決方案中,使客戶能夠利用最新技術快速進入市場,以達到他們的年度升級窗口。8
ToF模塊ADTF3175可以連接至視覺計算平臺,并連接至Melody板,為下一代沉浸式音頻系統構建硬件平臺(圖7)。RGB攝像頭可耦合至ADTF3175 ToF模塊,構建RGBD攝像頭來進行強化視覺分析。
圖7. 使用ADI平臺實現沉浸式音頻系統。
結論
ADI借助包含DSP、HDMI收發器、D類放大器和ToF成像器的解決方案系列,持續不懈地追求實現真正沉浸式的音頻系統,力求提供與真實世界一般無二的聲音。
審核編輯:郭婷
-
dsp
+關注
關注
555文章
8118瀏覽量
353970 -
ADI
+關注
關注
147文章
46002瀏覽量
256384 -
TOF
+關注
關注
9文章
493瀏覽量
36957
發布評論請先 登錄
相關推薦
評論