捕獲精確聲學(xué)現(xiàn)象的逼真音頻合成

中國(guó)AI網(wǎng) 2025年04月15日)捕獲精確聲學(xué)現(xiàn)象的逼真音頻合成對(duì)于在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)中創(chuàng)造沉浸式體驗(yàn)至關(guān)重要。合成在任何位置接收到的聲音依賴于脈沖響應(yīng)(IR)的估計(jì)。在一項(xiàng)研究中,賓夕法尼亞大學(xué)和華盛頓大學(xué)團(tuán)隊(duì)提出了Acoustic Volume Rendering(AVR)。

這是一種采用體渲染技術(shù)來(lái)模擬聲脈沖響應(yīng)的新方法。盡管體渲染在為圖像和神經(jīng)場(chǎng)景表示建模輻射場(chǎng)方面取得了成功,但作為時(shí)間序列信號(hào),體渲染提出了獨(dú)特的挑戰(zhàn)。為了應(yīng)對(duì)這一情況,團(tuán)隊(duì)引入了頻域體渲染,并使用球面積分來(lái)擬合紅外測(cè)量結(jié)果。

所述方法構(gòu)建了一個(gè)編碼了波傳播原理的脈沖響應(yīng)場(chǎng),而實(shí)驗(yàn)表明它在合成新姿態(tài)的脈沖響應(yīng)方面達(dá)到了最先進(jìn)的性能。另外,研究人員開(kāi)發(fā)了聲學(xué)模擬平臺(tái)AcoustiX,以提供比現(xiàn)有模擬器更準(zhǔn)確、更真實(shí)的模擬。

研究員提出AVR技術(shù)實(shí)現(xiàn)物理級(jí)VR音頻合成,相位精度提升60%  第1張

從走廊里回蕩的清脆回聲到音樂(lè)廳里交響樂(lè)的分層共振,我們的聲學(xué)環(huán)境塑造了我們聽(tīng)到的每一個(gè)聲音。空間特征不僅定義了我們的日常聽(tīng)覺(jué)體驗(yàn),而且對(duì)于創(chuàng)造令人信服的元宇宙至關(guān)重要。

空間特征的核心是脈沖響應(yīng)(IR),它捕獲了所發(fā)出聲音和我們所聽(tīng)到聲音之間的復(fù)雜關(guān)系。就像獨(dú)特的聲紋一樣,脈沖響應(yīng)在不同位置變化,編碼聲波如何通過(guò)反射、衍射和吸收與環(huán)境相互作用。

我們可以通過(guò)將相應(yīng)的脈沖響應(yīng)與任何期望的聲源進(jìn)行卷積來(lái)重建任何位置的聲學(xué)體驗(yàn)。鑒于其在空間音頻合成中的基礎(chǔ)作用,理解和建模聲環(huán)境中脈沖響應(yīng)的空間變化已成為一項(xiàng)關(guān)鍵挑戰(zhàn),并引起了越來(lái)越多的研究關(guān)注。

目前的方法構(gòu)建了一個(gè)神經(jīng)脈沖響應(yīng)場(chǎng)。為了模擬脈沖響應(yīng)的高空間變異性,現(xiàn)有方法要么擬合神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)場(chǎng),要么依賴視聽(tīng)對(duì)應(yīng)從視覺(jué)中學(xué)習(xí)映射。

盡管相關(guān)方法可以近似一般的能量趨勢(shì),但它們難以捕獲脈沖響應(yīng)的詳細(xì)特征,導(dǎo)致脈沖響應(yīng)的空間變化不正確。

賓夕法尼亞大學(xué)和華盛頓大學(xué)團(tuán)隊(duì)認(rèn)為,實(shí)現(xiàn)更好性能的一個(gè)關(guān)鍵障礙是缺乏物理約束。如果沒(méi)有,網(wǎng)絡(luò)往往會(huì)過(guò)度擬合訓(xùn)練數(shù)據(jù),表現(xiàn)出較差的泛化能力。接收到的脈沖響應(yīng)基本上來(lái)自于聲波在空間中傳播,結(jié)合了直接傳播和環(huán)境反射。這種物理洞察力促使研究人員開(kāi)發(fā)一個(gè)框架,內(nèi)在地將波傳播原理編碼到脈沖響應(yīng)場(chǎng)的建模中。

他們引入了AVR來(lái)模擬聲脈沖響應(yīng)場(chǎng)。所述方法從神經(jīng)輻射場(chǎng)中獲得靈感,后者通過(guò)體渲染表示光傳輸,并在建模3D場(chǎng)景方面取得了顯著的成功。然而,聲波提出了數(shù)個(gè)基本的挑戰(zhàn),并需要適應(yīng)體渲染框架。

首先,聲脈沖響應(yīng)與光傳輸不同,本質(zhì)上是時(shí)間序列信號(hào),來(lái)自不同位置的聲波以不同的延遲到達(dá)聽(tīng)者。當(dāng)處理在現(xiàn)實(shí)世界中采樣的離散脈沖響應(yīng)時(shí),這個(gè)問(wèn)題進(jìn)一步復(fù)雜化。其次,脈沖響應(yīng)表現(xiàn)出高度的空間變化,與相鄰像素顯示出強(qiáng)相關(guān)性的圖像相反。這一特點(diǎn)使得網(wǎng)絡(luò)優(yōu)化特別具有挑戰(zhàn)性。最后,與攝像頭捕獲精確方向信息(即像素)的光不同,麥克風(fēng)捕捉來(lái)自所有方向的組合信號(hào)。

研究員提出AVR技術(shù)實(shí)現(xiàn)物理級(jí)VR音頻合成,相位精度提升60%  第2張

為了解決上述問(wèn)題,團(tuán)隊(duì)使用傅里葉變換將脈沖響應(yīng)從時(shí)域轉(zhuǎn)換到頻域,并在頻域進(jìn)行體渲染。他們對(duì)頻域脈沖響應(yīng)應(yīng)用相移來(lái)解釋時(shí)間延遲,繞過(guò)有限時(shí)域采樣的限制。頻域表示同時(shí)表現(xiàn)出較小的空間變異,便于網(wǎng)絡(luò)優(yōu)化。

為了考慮來(lái)自所有可能方向的信號(hào),在一個(gè)球體均勻地投射光線,并使用球面積分來(lái)合成脈沖響應(yīng)測(cè)量。同時(shí),設(shè)計(jì)通過(guò)在推理時(shí)將單個(gè)頭相關(guān)傳遞函數(shù)集成到球形集成中,以實(shí)現(xiàn)個(gè)性化音頻體驗(yàn)。

評(píng)估結(jié)果表明,AVR在模擬和現(xiàn)實(shí)數(shù)據(jù)集都大大優(yōu)于現(xiàn)有方法,并且可以zero-shot渲染雙耳音頻。與AVR并行,研究人員開(kāi)發(fā)了聲學(xué)仿真平臺(tái)AcoustiX。與現(xiàn)有模擬器相比,它可以產(chǎn)生更精確的物理脈沖響應(yīng)。盡管目前的模擬器在信號(hào)相位和到達(dá)時(shí)間方面經(jīng)常會(huì)出現(xiàn)明顯的誤差,但AcoustiX產(chǎn)生的脈沖響應(yīng)更符合真實(shí)聲學(xué)的物理特性。

另外,現(xiàn)有的模擬器在產(chǎn)生脈沖響應(yīng)時(shí)分配隨機(jī)相位,這不能反映真實(shí)的聲學(xué)行為。由于目前脈沖響應(yīng)合成的研究嚴(yán)重依賴于模擬數(shù)據(jù)集,模擬的不準(zhǔn)確性會(huì)阻礙領(lǐng)域的進(jìn)展。

為了解決這個(gè)限制,研究人員開(kāi)發(fā)了一個(gè)基于Sionna引擎的全新仿真平臺(tái),并結(jié)合了聲傳播方程來(lái)解決上述問(wèn)題。與SoundSpaces 2.0類似,AcoustiX支持用戶提供的3D場(chǎng)景和各種現(xiàn)有3D場(chǎng)景數(shù)據(jù)集的聲學(xué)模擬。

相關(guān)論文:Acoustic Volume Rendering for Neural Impulse Response Fields

總的來(lái)說(shuō),團(tuán)隊(duì)提出了AVR來(lái)重建固有編碼波傳播原理的脈沖響應(yīng)場(chǎng)。他們引入頻域信號(hào)渲染和球面信號(hào)集成來(lái)解決脈沖響應(yīng)建模中的獨(dú)特挑戰(zhàn)。實(shí)驗(yàn)結(jié)果表明,AVR算法明顯優(yōu)于現(xiàn)有算法。另外,他們開(kāi)發(fā)了AcoustiX。這個(gè)開(kāi)源仿真平臺(tái)可提供準(zhǔn)確的到達(dá)時(shí)間測(cè)量。