利用頭部追蹤功能評估3D音訊

作者 : Charles Pao,CEVA資深行銷專員

沉浸式3D/空間音效結合延展實境(XR)/360∘全景影片,帶您瞬間從家中來到茂密森林深處,彷彿能聽見腳下踩踏枯枝的清脆聲響,看見東方靈動的奔鹿,以及北美紅雀從眼前飛過的振翅英姿。

沉浸式3D/空間音效結合延展實境(XR)/360∘全景影片,帶您瞬間從家中來到茂密森林深處,彷彿能聽見腳下踩踏枯枝的清脆聲響,看見東方靈動的奔鹿,以及北美紅雀從眼前飛過的振翅英姿。

精確的頭部追蹤功能有助於提供生動逼真的使用體驗(UX),也能夠協助瞭解評估解決方案時應考慮的關鍵因素,進而在此日益成長的產業中無往不利。

頭部追蹤功能的關鍵考量因素

為了便於理解,在此摘錄頭部追蹤功能的關鍵考量因素:

• 延遲:這是指從影音來源發出訊號開始,直到使用者察覺訊號的延遲時間。本文中將其細分為兩個部份。
1. 音訊輸入延遲:這段延遲是從音訊來源發出訊號開始,直到使用者聽見音訊所經過的時間。
2. 頭部追蹤延遲:這段延遲是從頭部移動開始,直到3D音訊處理變更並適應頭部新方向所經過的時間。
• 頭部追蹤精確度:本文僅探討3-DOF (3自由度)定向的頭部追蹤,而非兼具位移和定向感知的6-DOF (6自由度)頭部追蹤。準確度是指在實際動作及其於XR環境中相應位置之間所測得的差異。如果感測器(及其演算法)不夠準確,使用者或許可以即時追蹤頭部動作,但該動作將無法穩定地反映在虛擬環境中。
• 頭部追蹤流暢度:這是指使用者改變方向時,3D音訊轉場的清晰與流暢程度。理想的XR體驗不該發生跳針狀況。驟然變化的輸出訊號會破壞沉浸感,甚至可能導致遊戲中的角色喪命。

權衡測試:頭部追蹤延遲

在缺少適當測量設備的情況下,要進行延遲測試不太容易,但至少我們能以主觀感受來評判。根據德國柏林工業大學(TU Berlin)音訊傳播學會(Audio Communication Group)進行的研究顯示,人類受試者的平均察覺度是108毫秒(ms),對單一音源的絕對察覺閾值則介於52至73ms。更明確而言,他們得出的結果是一種「總系統延遲」(Total System Latency),表述實體輸出與相應揚聲器輸出之間的時間差。研究結果指出,從實際發生動作到人類察覺變化所經過的時間平均可達108ms。此外,從單一來源播放的聲音更容易被察覺。

在聆聽預錄音樂或其他純音訊內容時,這種延遲的影響微乎其微。然而,在播放錄製影片時,如果顯示器不放慢影像速度來配合音訊輸入的延遲,就可能發生語音和畫面無法同步的問題。電玩遊戲最忌諱的就是畫面延遲,因為這對遊戲表現會產生重大影響,因此若要保持遊戲中的語音同步效果,就必須擁有低延遲的音訊效能。雖然不可能完全沒有延遲,但重點在於將其減到最小,降低到使用者無法察覺的地步。

空間音效系統可以透過空間處理技術分析空間音效輸入,然後得出相對應的頭部追蹤資料,此過程通常採用頭部相關傳輸函數(HRTF)技術,也可能涉及特定混響效果或其他房間模擬功能。憑藉這項處理功能,可使用幾種常見的方法來實作空間音效系統。

spatial audio

圖1:在音訊裝置執行空間處理,由於採用無線通訊,因此僅在音訊輸入增加延遲。

若在音訊裝置本身執行空間處理演算法,由於採用無線通訊的緣故,因此只有音訊輸入的延遲會增加。由於頭部追蹤路徑中沒有無線鏈路,因此頭部追蹤仍可維持極低延遲。這是在同一台裝置上執行空間處理和頭部追蹤功能的關鍵優勢。

spatial audio - figure 2

圖2:由於頭部追蹤路徑中沒有無線鏈路,因此仍能維持極低延遲。

另一種方法是在手機等行動裝置上執行空間音效處理功能。頭部追蹤資訊會從聽戴式裝置發送至行動裝置進行處理,再將處理後的訊號回傳給使用者。由於提供額外的通訊鏈路,因此頭部追蹤的延遲會比前述方法更高。音訊從手機傳輸至耳機的藍牙延遲時間取決於所使用的音訊編解碼器(codec)。較快速的codec延遲可以低至50-80ms,但較常見的codec則是170-270ns。頭部追蹤資料通常會再增加50-100ns延遲。

spatial audio - figure 3

圖3:聽戴式裝置將頭部追蹤資訊發送至行動裝置進行處理,再回傳給使用者。由於提供額外鏈路,頭部追蹤延遲較高。

瞭解空間音效系統和人類知覺延遲研究的相關知識後,我們就能大致掌握空間音效系統的延遲程度是好是壞。為了測試延遲,請嘗試聆聽頻率較高的音訊,低頻率噪音的定向程度不高(因此立體音聲系統通常只有一部超低音揚聲器)。

測試延遲時,良好的音源會是能夠精準定位的連續聲音。在理想情況下,此音源也要混合多個頻率,但為便於說明,請想像一個持續播放且音調較高的聲音。高頻率較容易辨識,恆定音調則可讓您察覺聲像(audio image)中的明顯變化。

請設想您戴著一副耳機,頭部追蹤延遲為200ms。若要實現良好的音訊輸出,聲像不應偏移超過5度。這表示使用者的移動速度必須維持低於25度/秒。為了幫助想像,在此速率之下,必須花3.6秒才能將頭部轉動90度。這種速度相當緩慢,而正常的移動應該較快。

在測試中,如果頭部轉動90度約需1/4秒,每秒就是移動360度。因此,200ms的延遲表示訊號來源在此時間內會移動72度,但停留在錯誤位置的時間也只有約200ns。若以恆定音做為參考點,應可清楚察覺延遲。

準確度、精確度、流暢度

準確度(accuracy)涉及動作與真實世界/正確訊號對應的符合程度。精確度(precision)關乎能夠一致地取得相同對應訊號的穩定程度。若少了搭載磁力儀的全9軸解決方案,就無法測量真正的準確度。然而,有鑑於磁力驅動音效技術本身的特性,再加上使用者環境持續變化,全9軸頭部追蹤解決方案顯得不切實際。因此,大多數空間音效硬體僅採用加速計和陀螺儀。

測試精確度與流暢度(smoothness)略為困難,但如果使用適當的空間音效軟體,應可根據軟體的反應程度進行判斷。要測試這些標準,最好使用清晰的語音音訊(例如podcast)。在podcast節目中,講者處於固定位置,因此無論您以何種方式轉動頭部,聲音都應該來自同一位置。而當您移動頭部時,3D音訊的位移應該不會導致明顯的音量或品質變化。

3D/空間音效耳機中的陀螺儀感測器會因漂移而產生偏差,進而降低耳機的整體精確度。軟體可提供多種選項:手動重新置中、慢速穩定或快速穩定。

如果任憑漂移現象持續,您將會逐漸察覺人聲在房間內緩慢移動。也許起初位於正前方,但後來會稍微偏離中央而靠向左側。這不是理想的狀況。您可以手動對裝置進行重新置中,方法是按下指定按鈕(實體或軟體),藉以表示「我目前正直視前方」以重置漂移現象。然而,漂移量仍會逐漸累積。慢速重新置中功能善加利用了「頭部會面向內容方向」的行為特性。基於這項假設,可以在幾分鐘內重置陀螺儀的漂移。快速重新置中功能採用相同概念,但移動速度相對較迅速,在數秒內即可完成。

何種自動置中方法較為理想,則取決於實際的使用情況。若您以相同方向觀看螢幕,則以慢速重新置中較為理想,因為此模式會忽略視線偶爾偏離螢幕的行為,將活動的焦點維持在中央。在工作階段開始時,重設「前進」方向有助於為系統提供指引,以免花上好幾分鐘等待演算法調整。然而,若是在家中以多個螢幕玩遊戲、在手機上玩動作遊戲,或是在實體環境(例如公園)四處走動,視線方向變化的頻率則相對較高。若要跟上這類情境中的速度,使用快速重新置中是較理想的做法。

當您在收聽podcast的同時移動頭部,請嘗試注意移動到不同位置時系統追蹤人聲的準確度,以及人聲位置漂移時的音效流暢度(或是注意您是否察覺到任何漂移)。空間音效流暢度的關鍵在於位移轉場的清晰程度。如果不論緩慢或快速移動頭部,音訊位移的轉場都能純淨清晰且細微難辨,就表示該演算法具有極高的流暢度。在移動頭部時,若察覺音訊出現頓挫或明顯的量化差異,這可能是跳頻校正的跡象,或是感測器/系統無法流暢地轉譯運動訊號。

隨著大型科技公司紛紛推出整合式產品,3D/空間音效技術已逐漸成為主流趨勢。產品愈是琳瑯滿目,就愈需要懂得如何做出最佳選擇。雖然上述評估大多具有主觀性質,但仍希望藉由解釋評估的基本觀點與測試的設計原理,協助讀者釐清相關領域的脈絡與方向。

加入LINE@,最新消息一手掌握!

發表評論