在保持與最先進解決方案相當的量級精度的同時,ILD誤差大幅降低
(中國AI網 2025年05月30日)增強現實和虛擬現實等應用中的聽覺體驗依賴于高質量的空間音頻來確保沉浸感,這使得準確的雙耳再現成為關鍵組成。作為捕獲設備,只有少量不規則排列麥克風的可穿戴陣列在實現與具有大量麥克風陣列相當的再現質量方面面臨挑戰。
雙耳信號匹配(BSM)是新近提出的一種跨信號方法,以支持僅使用少數麥克風產生高質量的雙耳信號,并在高頻下使用幅值最小二乘(MagLS)優化進一步改進。
在一項研究中,本·古里安大學和Meta團隊將ILD引入到MagLS中,并集成到BSM中,從而將BSM擴展到MagLS。利用基于深度神經網絡的求解器,所提出的BSM-iMagLS實現了聯合優化,提高了空間保真度。
通過理論分析、不同HRTF和頭戴式陣列幾何形狀的數值模擬以及聆聽實驗驗證了性能,證明了在保持與最先進解決方案相當的量級精度的同時,ILD誤差大幅降低。相關結果突出了BSM-iMagLS在增強可穿戴設備雙耳再現方面的潛力。

雙耳音頻再現已經成為一個重要的研究領域,它有潛力在虛擬現實、增強現實等領域實現空間沉浸式體驗。雙耳信號通過捕獲和再現三維聲景,允許聽者能夠自然地感知空間音頻線索,從而增強虛擬環境的真實感,并提高實際應用中的空間意識。
空間音頻再現的一個常見解決方案涉及使用HOA。所述方法對特定聽者的頭相關傳遞函數(hHRTF)進行空間濾波,以精確計算雙耳信號。然而,盡管HOA技術已經成熟并納入MPEG-H Audio等標準,但它需要特定的陣列幾何形狀,如球面陣列和高空間分辨率。這限制了它對可穿戴設備和便攜式設備的適用性。
相關方法依賴于對聲場參數的估計,如主要聲源的到達方向和混響成分的擴散,并在信號模型中使用相關估計來推導雙耳信號。當模型假設成立時,參數方法可以獲得高保真度,但其性能對估計誤差非常敏感,并且依賴于時頻域稀疏源分布等假設。
這種信號依賴性限制了它們在復雜聲學環境中的魯棒性。相反,當所記錄的聲場信息有限時,不需要詳細聲場信息的獨立于信號的方法是可取的。基于信號獨立波束形成的方法,如新近提出的雙耳信號匹配(BSM),為任意陣列幾何形狀提供了靈活性,并且不需要捕獲場景的先驗信息。
BSM方法通過優化將陣列聲傳遞函數與目標HRTF相匹配,實現了獨立于信號的雙耳再現。先前的研究已經證明了BSM的潛力,但同時強調了其在高頻和退化空間保真度下的有限精度,特別是在頭部運動下。在相關研究中,雙耳再現誤差證明與雙耳信號(如ILD)的退化有關。
在先前的研究中,HRTF的一階球面諧波(SH)系數在高頻范圍內針對幅度最小二乘(MagLS)和ILD進行優化。以其作為基礎,團隊通過優化BSM系數而不是HRTF SH系數,提出了適用于任意麥克風陣列的BSM iMagLS。
通過將框架從球形幾何中泛化出來,BSM iMagLS方法擴大了高保真雙耳再現的范圍,以涵蓋具有任意麥克風放置的現實世界設備。
新引入的DiMLS稱為聲級最小二乘(iMagLS),結合雙耳的聯合優化并明確考慮聲級差比。在這方面,DiMLS可以看作是DMLS的自然擴展,因為它不僅旨在獨立匹配每只耳朵的絕對值,而且保持它們之間的比例。

這種擴展在由于陣列限制而導致絕對值誤差顯著的頻率范圍內特別有利,同時保持低ILD誤差依然可行。ILD是聲音定位的關鍵聽覺線索,而ILD的不準確會導致感知變化,因為人類聽覺系統依賴相關線索來識別聲源的位置。
相關論文:BSM-iMagLS: ILD Informed Binaural Signal Matching for Reproduction with Head-Mounted Microphone Arrays
總的來說,團隊提出了一種針對任意麥克風陣列的雙耳信號繪制方法——基于ILD和幅度最小二乘的雙耳信號匹配BSM-iMagLS。
BSMiMagLS通過引入ILD優化對先前提出的BSM方法進行了改進。通過基于DNN的聯合優化框架,BSM-iMagLS顯著提高了空間精度,這對于使用可穿戴麥克風陣列有效再現雙耳信號至關重要。
評估表明,BSM-iMagLS一致地減少了ILD誤差,同時保持了與現有MagLS解決方案相當的幅度誤差。相關改進在水平定位至關重要的情況下尤為明顯,從而通過客觀指標和聽覺實驗驗證了所提出方法的感知優勢。
研究結果強調了平衡大小和ILD精度對于增強雙耳音頻再現的空間感知的重要性。所以,BSMiMagLS作為一種更準確和感知有效的雙耳渲染技術出現,特別適合于頭戴式麥克風陣列的限制。

