即使在麥克風之間存在較大間隙的情況下,所提出方法都能成功重建缺失的RIRs

中國AI網 2025年08月15日)房間脈沖響應(RIRs)表征聲學環境,并在多種音頻信號處理任務中至關重要,包括AR/VR。高質量的RIR估計驅動著諸如虛擬麥克風、聲源定位、增強現實和數據增強等應用。然而,獲取具有高空間分辨率的RIR測量資源消耗巨大,對于大空間或需要密集采樣的情況顯得不切實際。

在一項研究中,以色列巴伊蘭大學和意大利米蘭理工大學團隊希望解決使用去噪擴散概率模型(DDPM)估算房間內未測量位置RIRs的挑戰。所提出方法利用了RIR矩陣與圖像修復之間的類比,將RIR數據轉換為適合基于擴散模型進行重建的格式。

利用基于鏡像法模擬的RIR數據,團隊在從線性到半圓形的不同曲率麥克風陣列上證明了所提出方法的有效性。即使在麥克風之間存在較大間隙的情況下,所提出方法都能成功重建缺失的RIRs。在此類條件下,該方法實現了精確的重建,在歸一化均方誤差(NMSE)以及實際RIR與插值RIR之間的余弦距離(CD)指標上顯著優于基線三次樣條插值法。

這項研究凸顯了使用生成模型進行有效RIR插值的潛力,為從有限的真實世界測量數據中生成額外數據鋪平了道路。

以色列與意大利研究團隊開發基于擴散模型的聲學響應重建技術  第1張

房間脈沖響應(RIRs)在音頻信號處理中扮演著關鍵角色,支持著虛擬現實與增強現實等應用。然而,測量RIRs資源消耗巨大,特別是在需要密集測量的大空間或聲學復雜空間中。模擬的RIRs雖然實用,但通常缺乏真實數據的準確性和保真度,因此需要能夠重建或插值未測量位置RIRs的方法。

傳統的RIR重建方法依賴于數學模型,例如壓縮感知和波動方程求解,但這些方法在復雜聲學環境中往往表現不佳。近期的進展利用深度學習技術,包括卷積神經網絡(CNNs)和生成對抗網絡(GANs),以提高重建精度。例如,GANs在擴展陣列處理帶寬方面顯示出潛力,而物理信息神經網絡(PINNs)則結合聲學原理來優化預測。DDPM最近已成為聲場重建的有力工具,為生成精確的聲場提供了概率框架。然而,這些方法大多專注于特定頻段或RIR的部分內容。最近的一個挑戰聚焦于將生成模型用于合成房間聲學,作為說話人距離估計任務的數據增強工具。

以色列巴伊蘭大學和意大利米蘭理工大學團隊的研究探索了RIR重建與圖像修復之間的類比。通過將RIR矩陣視為圖像,我們應用擴散模型來重建RIR的完整時間跨度。這種新穎方法實現了魯棒且準確的RIR插值,即使在麥克風在聲學環境中稀疏分布的情況下,都在NMSE和CD方面取得了優異性能。所提出的方法得到了基于模擬聲學環境的實驗研究的支持,為潛在的實際應用奠定了堅實基礎。

所提出研究旨在利用有限數量的測量RIRs來重建未測量位置的RIRs。給定房間內M個測量到的RIRs,任務是估計L個未測量位置的RIRs,從而得到總共N = M + L個位置。每個RIR以頻率Fs采樣并被截斷為K個樣本,超過此長度則衰減至背景噪聲水平。團隊重點關注線性和半圓形陣列配置,以及中間的弧形配置,盡管該方法可擴展到其他設置。

在此框架下,考慮N個麥克風位置,其中只有M個隨機選擇的RIRs被測量,而剩余的L個測量缺失(如圖1所示的線性陣列示例)。數學上,令H表示RIRs的矩陣,其中H ∈ R N×K。他們將可用的RIR測量值表示為Hmeasured ∈ R M×K。團隊的目標是估計H中的缺失項,以獲得完整的矩陣H? ∈ R N×K。H的每一列(記為hi)代表第i個位置的RIR(1 ≤ i ≤ N)。將此矩陣視為圖像,而問題類似于圖像修復,目標是利用可用數據重建缺失部分。圖2顯示了矩陣H的熱圖以及一個麥克風RIR的放大視圖。團隊希望利用測量到的RIRs重建分散在整個陣列中的缺失RIRs。

重建缺失的RIRs需要利用數據的空間和時間結構。通過應對這一挑戰,團隊開發了一種魯棒的插值方法,以促進跨各種應用的聲學分析和處理。

研究人員將重建缺失RIRs的問題表述為一個圖像修復任務。通過將RIR數據表示為圖像,可以利用DDPMs的強大能力來估計缺失的響應。這一受到先前利用擴散模型進行圖像修復研究的啟發,特別是使用預訓練擴散模型有效重建圖像缺失區域的研究,。

基于DDPMs的修復方法利用一個最初為通用圖像生成而訓練的預訓練模型。在推理過程中,通過將模型條件設定在圖像的已知部分,同時為缺失區域生成新內容,使其適應修復任務。在每個擴散步驟中,引導模型與觀測部分保持一致,確保僅重建缺失區域而保留已知區域。這種方法允許靈活的修復,無需預先知道掩碼模式。這種迭代細化的特性與團隊提出的問題非常契合,即需要在不知道缺失麥克風位置的情況下重建缺失的RIR數據,使其盡可能接近原始響應。

研究人員采用OpenAI的DDPM架構,并進行必要的修改以適應RIR矩陣圖像。盡管原始模型是為自然圖像設計的,但RIR數據具有獨特的統計特性。在專門的小型RIR數據集上訓練模型使其能夠捕獲這些特性,從而實現更精確的重建。在推理時,將帶掩碼的RIR圖像輸入訓練好的擴散模型,模型迭代地重建缺失區域。輸出是一個完整的RIR圖像。最后,通過將灰度像素值轉換回響應幅度,將重建的圖像轉換為其原始矩陣形式。僅保留新修復的區域,它們代表重建的RIR。

以色列與意大利研究團隊開發基于擴散模型的聲學響應重建技術  第2張

為了應用修復技術,將RIR數據重塑為類似圖像的格式。給定一個陣列配置,將RIRs排列成一個二維矩陣,其中每一列對應來自特定麥克風位置的長度為K的RIR。所提出方法同時能適應不同數量的缺失麥克風和不同的RIR長度,這將使得圖像具有不同的寬度和高度尺寸。生成的矩陣視為灰度圖像,強度值代表歸一化的RIR幅度。這種格式在保留空間和時間信息的同時實現了結構化處理。

由于DDPMs通常在固定尺寸的圖像上訓練,團隊將RIR矩陣分割成64×64像素的圖像塊,對應于64個可能的麥克風位置和64個RIR采樣點(tap)。如果RIR長度超過64(通常是這種情況),將圖像分割成多個塊,每個塊代表RIR的不同部分。

為了解決由于缺乏周圍上下文而導致圖像塊邊緣重建質量較低的問題,在相鄰圖像塊之間引入了25%的重疊。研究人員同時將每個圖像塊歸一化到[-1, 1]的范圍,使網絡能夠獨立于該部分響應的能量水平來重建每個塊。重建后,通過將每個塊重新縮放到其原始能量,丟棄重疊區域,并僅保留圖像塊的中心部分,將這些塊重新組裝成一個完整的圖像。這種方法平衡了計算效率和重建精度,并通過消除重復和保持連續性確保了無縫重建。

在麥克風配置少于64個的情況下,用重復的列填充圖像以確保圖像寬度為64像素。這保留了模型預期的輸入尺寸,同時最小化了重建過程中的失真。

為了模擬缺失測量,通過將RIR圖像中隨機選擇的列置零來生成不同比例的掩碼。其中,掩碼代表未測量的麥克風位置。然后,帶掩碼的圖像及其對應的掩碼作為輸入饋入擴散模型。

相關論文:DiffusionRIR: Room Impulse Response Interpolation using Diffusion Models

https://arxiv.org/pdf/2504.20625

總的來說,團隊解決了獲取RIR測量的挑戰:RIR測量對于表征房間聲學特性至關重要,但采集成本高昂。研究人員提出利用傳統上用于成像的超分辨率技術,來插值或預測房間內未測量位置的RIRs。所提出方法利用現有的RIR數據生成高分辨率聲學映射,無需進行詳盡的測量,從而支持增強現實和虛擬現實等應用。

仿真結果表明,所提出的方法能夠有效泛化到訓練配置之外,可以為不同的麥克風陣列甚至未包含在訓練集中的房間生成RIRs。盡管使用模擬RIRs進行了測試,但團隊相信這項研究為從有限的真實世界測量中生成額外數據打開了大門。