要想在VR中獲得更好的沉浸感,五感的還原極其重要,視覺還原是其中最為成熟的一部分,而音頻——全景聲,隨著技術的發展,也慢慢在VR內容中應用起來。
縱觀全球聲音定位技術,主要可以分 3 種:聲道為本 (Channel Based)、面向對象聲音 (Object Based)及場景聲音(Scene Based) 。值得留意的是,各種技術都可以分為錄音、播放系統和輸出格式三個部分。以下的內容主要基于輸出格式,但也會略提各種錄音、播放系統的利弊。
三大定位方式
1. 聲道為本 (Channel Based) 傳統聲音定位技術都是以聲道為本 (Channel Based) 的技術,意思是指所有輸出是根據系統的聲道數目來制作。例如立體聲的音樂就有 2 個聲道,5.1 環繞聲的電影就有 6 個聲道。但這種技術其實即使在環繞聲中都不理想。原因是不同的系統設計或擺放將會影響到定位效果,而且難以在不同系統中轉換,例如 5.1 環繞聲的電影就不能夠準確地在 7.1 系統中播放。因此極少在 3D 聲效上應用。當然,嚴格來說,所有播放系統在輸出最終都是聲道為本,只不過輸出前的文件格式和制作方法會有分別。
雖然聲道為本的技術在 3D 聲效不常見,但基于聲道為本的錄音技術的悠久歷史,發展完善,因此即使使用其他技術,很多時都會借用聲道為本的錄音技術制作,例如在接下來介紹的面向對象聲音 (Object Based) 技術就常常會用上傳統單聲道及雙聲道錄音技術。 2. 面向對象聲音 (Object Based) 近年為了改善不同播放系統的問題,研究人員開始思考如何用一個輸出格式去適應所有系統。其中較流行的方法是用面向對象聲音 (Object Based),相信很多人都在部份戲院或電影的片尾中見到杜比全景聲 (Dolby Atmos) 的標志,這是其中一種較常用的面向對象格式。面向對象是指聲音定位以聲源 (所謂對象) 為本,輸出并不基于聲道數目,而是基于聲源數目。
簡單而言,每一個「對象」會輸出兩樣信息,它的聲音,和它在 3D 空間中的位置。在播放時,播放器會根據對象信息,以及影音系統的設定去分配各聲道的輸出,從而準確定位。因此這技術除了可以用同一輸出檔案做到跨系統播放,亦可以做出超越水平面的 3D 定位。常見的對應輸出系統為 VBAP (Vector Base Amplitude Panning),基本上是傳統 5.1 或 7.1 環繞聲加上不同高度的喇叭(有關各種輸出系統之后會再介紹),但亦可以在傳統 5.1 或 7.1 環繞聲系統,甚至雙聲道系統播放。
優點: 聲音定位一般較凖確,而聲音質素亦通常比較好
缺點: 輸出檔案的體積大。聲音來源集中,欠缺現場感
3. 場景聲音 (Scene Based) 除了以聲源為本,另一種常見的方法是以場景為本。場景為本的意思是指,我們嘗試記錄在空間中一個點上接收到的所有聲音。你可以想象成是記錄一個人在某場景中所聽到的所有聲音。唯一的分別是,人類的聽覺有方向性,例如來之前的聲音會比來自后面的聲音清晰,當聲音來自左邊左耳會感受到的音量會比較大等。但場景為本的錄音通常不會紀錄方向性的分別,無論聲音從那方面以來,都會清晰地記錄在錄音中。
其中最常見的錄音方法為Ambisonics (該名詞未有通用的翻譯)。它用幾組收音來全方位地記錄場景聲音。之所以要用幾組收音,是為了把場景中的聲音分為幾個軸,最常見是分為左右 (X)、前后 (Y) 和上下 (Z) 方便在后期制作中定位和加添指向性 (只用 3 個軸的Ambisonics 稱為 1st Order Ambisonics,可根據球諧函數 (Spherical Harmonics) 去加添更多軸,提高到更高 Order,從而提升聲音定位解像度,一般制作用最高可以到 5th order,但 X Y Z 三軸是較常見也比較容易理解,有機會再另立文章講解 Ambisonics Orders)。大家可以想象,在播放該錄音時,如果沒有分左右前后上下的話,聲音根本不可能定位。 該技術最大的優勢,是在于檔案體積,它最少只需要四條聲軌,X、Y 、 Z 和 W ( W 是一條無指向性全方位錄音— Omni Directional Recording),就可以重現 3D 聲效,比 5.1 環繞聲還少,因此此制式在360 影片及 VR 中很常見。而且因為他的錄音是全方位的,他可以清楚記錄所有在空間中漫射的聲音(Diffuse sound) ,也就是說,它可以記錄來自四方八面的回響 (Reverb),例如在教堂中說話,有時候會聽到回音,那些回音有時會從四方八面傳來,用 Ambisonics 就能夠準確地記錄那些回音。 Ambisonics 有自己對應的播放系統,其特色是所有喇叭的間距必須一致,平均地分布在一個虛擬球面。之所以要這樣安排,是因為在播放時,即使聲音內原只有一方,理論上所有喇叭都會播放相對應的場景聲音。概念上一般讀者可能較難理解,但概括而言,在播放任何聲音時所有喇叭都會運作,來重現錄音場景的音場。當然這播放系統在民用上是很不現實的,因為理想的播放系統需要很多喇叭,而且擺放位置要求極為精準,有時甚至要鉆穿地下來放置喇叭。因此,通常都會用耳筒來重現虛擬的 Ambisonics 播放系統 (稱為 Binaural Audio技術),亦有不少軟件可以將 Ambisonics 轉換成其他系統格式包括環繞聲和立體聲。 優點: 音質代入感強,仿似在場景中。輸出檔案一般較細,4條聲道起。 缺點: 錄音質素通常比較差,因為錄音器和聲源之間通常有一定距離。 錄音過程較復雜,和通常要利用特別器材,如 Ambisonics 。
位于英國的 Ambisonics 播放系統
Sennheiser 出品 Ambisonics( 1st OrderAmbisonics )
Eigenmike Ambisonics ( 4th OrderAmbisonics ) 比較各種聲音定位技術之優劣
各種技術的應用情況
聲道為本
如前文所言,傳統聲道為本的格式在 3D 聲效中的應用比較少見。主要是因為他難以兼容不同的播放系統。當然目前有很多沒有配備3D聲效的電影,都繼續沿用聲道為本的技術。大部份的音樂所使用的雙聲道,亦可歸類為此技術。
面向對象聲音
目前大部份的電影 3D 聲效多使用面向對象聲音。原因是后期制作比較方便,而且得到很多專業公司的支持,例如 Dolby、Auro、ProTools 等,表表者是杜比全景聲 (Dolby Atmos) 系統。
在這里要先講解一下通常電影聲效制作的流程。一般電影的聲效是混合現場錄音和后期制作。一般而言,現場錄音只會記錄演員的對白,其他所有聲音都是后期制作。相信讀者可以猜到,為何面向對象聲音比較適合電影制作,是因為所有后期制作的聲音甚至演員的對白都可以視為一個對象,并在后期制作中定位。很多電影并無涉及任何場景錄音的需要。更何況現在很多電影都用上大量場景特效 (綠幕),并非現場拍攝,根本沒有真正的場景聲音可以錄制。
Dolby Atmos 混音插件
另一方面,主流 VR 游戲甚至一些新的非 VR 電子游戲都使用面向對象聲音制作,但通常會輸出成場景聲音,主要是因為面向對象聲音技術比較能對應六自由度 (6 Degrees of Freedom (6 DoF) )的移動,意思是指玩家可以前后左右移動,聲音會根據玩家的位置作出對應的調整。
場景聲音
其實目前場景聲音的制作并不常見,但相信 360 影片的流行,這技術很快會變得普及。這技術其中一個好處是,一般人只要利用 Ambisonics 咪錄音,不需要太多后期制作,都可以有理想的 3D 聲效,而且該聲效可以根據觀眾觀看影片的角度作出對應的調整, (注:只限角度,暫時不包括前后左右移動)。例如你在看影片時可以聽到聲音從后方來,而當你 180 度轉向后方后,你會聽到該聲音跟隨轉向移到你的前方。讀取場景聲音亦不需要很復雜的系統。這技術對系統的要求低,檔案容量細,都是在未來普及的潛在優勢,特別在 Youtube 和 Facebook 之類的網上串流平臺都以這技術為基礎。 目前比較平民的器材有Ricoh theta V 的外置收音器。當然目前用此技術最大的問題是,因為收音的距離和欠缺指向性,收音的質素比較差,暫時改善的方法主要會配合面向對象聲音使用,所謂的混合方法。
Ricoh theta V 連外置收音
混合方法 (A Hybrid Method)
在錄音質素的要求比較高的情況下,例如音樂會現場錄音,或其他音樂相關的制作等,單靠面向對象聲音或場景聲音,都難以滿足音質要求。面向對象聲音欠缺現場感,而場景聲音的錄音又不夠清晰。人類一般對錄音的要求,通常比現場的聲音高,研究員戲稱超真實感聲音 (Hyper-Realistic Sound) 。要達到這個要求,目前最先進的做法是用場景聲音作為背景 (或稱為畫紙(Canvas) ),在該錄音為基礎再在上面加上面向對象聲音。這樣就可以確保聲音清晰同時保有現場感。目前 Dolby Atmos 已經支持場景聲音,去改善后制的聲音效果,可見未來可以用在音樂會或戲劇的現場錄音中。 而在360影片,一般實時使用混合方法,輸出時都會用場景聲音 Ambisonics 的文件格式來輸出來維持檔案的輕巧和容易解讀。當然 Dolby Atmos 用較復雜的混合檔案,配合該系統,理論上可提供較好的音質。但在 360 影片或 VR 中,因為輸出在不同角度下的表現比較平均 (所有喇叭的間距一致,平均地分布在虛擬球面),場景聲音輸出一般是首選。
額外知識: MPEG-H
MPEG-H 是MPEG系列 (如 .mp4) 的新一代高壓縮的影音格式,加入了 3D 聲效支撐,他同時支持面向對象聲和場景聲音。這個格式已經發展了一段時間 (2013) ,雖然目前并未流行,但相信未來會成為的主流格式。 小結 目前最常見的 3D 聲效應技術為面向對象聲音 (Object Based) 及場景聲音 (Scene Based) 且有時會混合使用。其實這些技術的應用已經日漸普及,很多新出的第一身游戲或多或少都會用到 3D 聲效去增加現場感。特別在射擊游戲,能夠用耳朵去感覺四面八方能大大改善游戲體驗。而在 360 影片或 VR 甚至其他 XR (統稱 VR、AR、MR 等虛擬現實的體驗為 XR) 的潮流下,很多公司包括 Abbey Road Studio 和 BBC 都投放很多資源去改善 3D 聲效制作及播放技術。
-
音頻
+關注
關注
29文章
3029瀏覽量
83140 -
定位技術
+關注
關注
7文章
298瀏覽量
25807 -
vr
+關注
關注
34文章
9669瀏覽量
152238
原文標題:【干貨】開發者必須了解的VR音頻定位技術
文章出處:【微信號:vrtuoluo,微信公眾號:VR陀螺】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
全志科技亮相OpenHarmony開發者大會2025

深開鴻CEO王成錄:開發者是開源鴻蒙生態的原點

深開鴻CEO王成錄:開發者是開源鴻蒙生態的原點

云端AI開發者工具的核心功能
AI開發平臺如何賦能開發者
開發者的開源鴻蒙故事
《HarmonyOS第一課》煥新升級,賦能開發者快速掌握鴻蒙應用開發
2024開放原子開發者大會暨首屆開源技術學術大會成功舉辦
云端AI開發者工具怎么用
KaihongOS 4.1.2開發者預覽版正式上線,誠邀開發者免費試用!

KaihongOS 4.1.2開發者預覽版正式上線,誠邀開發者免費試用!
開發者空間實踐指導:基于 3 大 PaaS 主流服務輕松實現文字轉換語音

評論