查看引用/信息源請點擊:中國AI網

顯著提升了雙耳音頻再現的準確性與真實感

中國AI網 2025年11月24日)以色列本·古里安大學與Meta現團隊在空間音頻編碼領域取得了一項突破,他們成功開發出一種專為可穿戴麥克風陣列設計的改進型Ambisonics編碼器,通過一種創新的聯合優化框架,顯著提升了雙耳音頻再現的準確性與真實感。所述技術有望徹底改變虛擬現實與增強現實中的聽覺體驗,使通過頭顯收聽的音頻能精準還原真實世界的三維空間聲場。

以色列與Meta團隊開發可穿戴陣列Ambisonics編碼器改進雙耳再現  第1張

在追求完全沉浸感的VR/AR體驗中,視覺固然重要,但聽覺才是營造臨場感的關鍵。雙耳音頻技術通過精確模擬聲音到達左右耳的細微時間差和強度差,欺騙我們的大腦,從而感知到聲音來自三維空間中的特定位置。作為一種強大的聲場編碼技術,Ambisonics被譽為“音頻領域的全景照片”,它能夠將一個完整的聲場信息編碼為一組標準化的信號通道。其最大的優勢在于格式通用性——一旦編碼,就可以在不同的播放系統靈活重放。

然而,理想的Ambisonics編碼通常依賴于結構規整、麥克風數量充足的球形陣列。而現實中的可穿戴設備,例如AR眼鏡或混合現實頭顯,受限于尺寸、重量和工業設計,其麥克風陣列往往是非規則、緊湊型甚至稀疏布置的。這種“非理想”的硬件布局,導致傳統的Ambisonics編碼器在從麥克風信號估算聲場時產生顯著誤差。盡管有一種名為雙耳信號匹配(BSM) 的替代技術可以繞過Ambisonics,直接為特定陣列和HRTF優化雙耳輸出,但它犧牲了Ambisonics的通用性和靈活性,變得與設備和用戶個體強相關。

面對這一兩難選擇,研究團隊獨辟蹊徑并提出了一個統一的編碼器設計框架,將Ambisonics信號匹配(ASM) 和雙耳信號匹配(BSM) 這兩個原本獨立的目標融合在同一個優化問題中。

具體來說,他們構建了一個全新的聯合損失函數。所述函數包含兩個部分:一部分是衡量編碼出的Ambisonics信號與理想Ambisonics信號之間差異的ASM誤差;另一部分是衡量由這些Ambisonics信號所生成的雙耳信號與理想雙耳信號之間差異的BSM誤差。通過引入一個平衡參數α(在0到1之間調節),編碼器設計者可以像操作一個“調光旋鈕”一樣,靈活地決定編碼器的“性格”:

偏向“標準主義者”(α接近1):編碼器優先保證Ambisonics系數的高度準確,確保其在不同系統間的兼容性,但可能犧牲最佳的雙耳聽覺效果。

偏向“體驗主義者”(α接近0):編碼器全力優化最終的雙耳聽覺體驗,使其盡可能逼真,但生成的Ambisonics信號本身可能不夠標準。

尋求“中庸之道”(α=0.5):在兩者間取得最佳平衡,在可接受的Ambisonics精度損失下,換取雙耳體驗的大幅提升。

研究團隊在論文中詳細闡述了其方法。他們首先回顧了傳統的ASM方法:通過Tikhonov正則化技術,為每個Ambisonics通道計算一個獨立的編碼濾波器,以最小化Ambisonics系數的重建誤差。然而,盡管以此方式定義的C_ASM最小化了ASM誤差,但它并不一定能提供最小化雙耳誤差的系數。

為解決此問題,研究人員進行了一系列巧妙的數學重構。他們將所有Ambisonics通道的編碼濾波器扁平化為一個長向量,并構建了一個包含頭相關傳遞函數(HRTF)球諧系數的塊對角矩陣。通過這種結構,他們將通過Ambisonics通路生成的雙耳信號,表達為了這個長向量與HRTF矩陣的乘積形式。這使得他們能夠直接針對最終的雙耳誤差,求解出一個新的、優化的濾波器集合C_BSM。

最終,聯合優化的編碼器被簡潔地表示為:C_joint = α × C_ASM + (1-α) × C_BSM。這個優雅的線性組合形式,是源于ASM和BSM的誤差函數在論文的假設條件下(擴散聲場、白噪點)都是二次型,因此它們的加權和的最小化解就是各自解的加權平均。

為了驗證所提方法的有效性,研究團隊進行了一系列嚴謹的仿真實驗:

聲學模型:使用一個半徑為10厘米的剛性球體來模擬人體頭部,這是一個在聲學研究中廣泛使用的、能夠準確模擬頭部散射效應的模型。

陣列設計:采用了一個包含5個麥克風的陣列,其位置在球坐標下精確設定為:{(90°, -70°), (72°, -35°), (108°, 0°), (72°, 35°), (90°, 70°)}。該布局模擬了安裝在眼鏡腿上的典型陣列(類似于EasyCom數據集中的陣列),具有對稱性。雙耳位置被設定在(90°, ±90°)。

聲場與信號:模擬了來自240個近乎均勻分布在空間中的方向的遠場平面波,以構建擴散聲場。編碼目標為一階Ambisonics(FOA),共4個通道。參考的高階Ambisonics階數設為20,以逼近理想情況。

以色列與Meta團隊開發可穿戴陣列Ambisonics編碼器改進雙耳再現  第2張

團隊比較了四種情況:

Joint-ASM (α = 1):僅優化ASM。

Joint-BSM (α = 0):僅優化BSM。

Joint-ASM-BSM (α = 0.5):平衡優化。

Std BSM:標準的直接雙耳信號匹配方法。

圖2清晰地展示了不同方案下的歸一化誤差性能:

當α=1(純ASM):所有四個Ambisonics通道(0,0)到(1,1)的重建誤差(ξ_ASM)在低頻段(約1kHz以下)都非常低,但隨著頻率升高而增加。然而,其雙耳誤差(ξ_BSM)在整個頻帶內都顯著高于標準BSM方法的誤差(ξ_BSM-ref)。這證實了僅追求Ambisonics精度不足以保證良好的雙耳聽感。

當α=0(純BSM/近似BSM):雙耳誤差(ξ_BSM)急劇下降,與標準BSM方法的性能曲線幾乎重合,達到了近乎最優的水平。但這是以Ambisonics各通道重建誤差的大幅增加為代價的,這意味著編碼出的Ambisonics流本身的質量下降了。

當α=0.5(聯合優化):這是最能體現該方法價值的情形。雙耳誤差僅比最優的純BSM情況有非常輕微的上升,但仍然維持在非常低的水平。與此同時,所有Ambisonics通道的重建誤差相比純BSM情況得到了大幅改善。這證明,聯合編碼器成功地用雙耳性能上微不足道的損失,換取了Ambisonics信號質量的大幅提升,實現了兩者間出色的平衡。

相關論文:Ambisonics Encoder for Wearable Array with Improved Binaural Reproduction

https://arxiv.org/pdf/2507.04108

這項研究成果為可穿戴消費電子產品的空間音頻處理提供了一條全新的路徑。設備制造商無需在“標準兼容性”和“極致聽感”之間艱難二選一,而是可以通過一個可配置的編碼器,根據不同應用場景的需求,找到最適合的平衡點。

團隊同時指出了接下來的研究方向:“目前,只考慮了單個聽者頭部相對于陣列的方向。因此,未來的研究應調查頭部旋轉和頭部追蹤的影響。另外,未來的工作可以探索在更真實的HRTF上使用這種方法,并進行聽音測試以評估聯合ASM-BSM設計的優勢。了解Ambisonics信號中的誤差對雙耳重放之外應用的影響也將很有價值?!?/p>