查看引用/信息源請(qǐng)點(diǎn)擊:中國(guó)AI網(wǎng)
能高效精確地建模動(dòng)態(tài)變化環(huán)境中的聲音行為
(中國(guó)AI網(wǎng) 2025年10月20日)先前的聲音傳輸方法依賴于大量的預(yù)計(jì)算和數(shù)據(jù)存儲(chǔ)來實(shí)現(xiàn)實(shí)時(shí)交互和聽覺反饋。然而,相關(guān)方法難以處理復(fù)雜場(chǎng)景,特別是當(dāng)物體位置、材料和尺寸的動(dòng)態(tài)變化顯著改變聲音效果時(shí)。連續(xù)變化導(dǎo)致聲學(xué)傳輸分布波動(dòng),難以用基本數(shù)據(jù)結(jié)構(gòu)表示并實(shí)時(shí)高效渲染。為解決這一挑戰(zhàn),北京大學(xué)團(tuán)隊(duì)提出了Neural Acoustic Transfer神經(jīng)聲學(xué)傳輸,一種利用隱式神經(jīng)表示對(duì)預(yù)計(jì)算聲學(xué)傳輸及其變化進(jìn)行編碼的新方法,可實(shí)時(shí)預(yù)測(cè)不同條件下的聲場(chǎng)。
為高效生成神經(jīng)聲場(chǎng)所需的訓(xùn)練數(shù)據(jù),研究人員開發(fā)了基于蒙特卡洛的快速邊界元法(BEM)近似算法,適用于滿足光滑諾伊曼條件的通用場(chǎng)景。另外,實(shí)現(xiàn)了標(biāo)準(zhǔn)BEM的GPU加速版本用于高精度場(chǎng)景。所述方法提供了必要的訓(xùn)練數(shù)據(jù),可支持神經(jīng)網(wǎng)絡(luò)精確建模聲音輻射空間。通過在不同聲學(xué)傳輸場(chǎng)景中的全面驗(yàn)證與對(duì)比,證明了所述方法具備數(shù)值精確性和運(yùn)行效率(30秒音頻處理僅需數(shù)毫秒)。
北京大學(xué)團(tuán)隊(duì)指出,所提出方案能高效精確地建模動(dòng)態(tài)變化環(huán)境中的聲音行為,可廣泛應(yīng)用于虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等交互場(chǎng)景。

聲學(xué)傳輸在合成與計(jì)算機(jī)模擬動(dòng)畫同步的物理真實(shí)聲音中起著關(guān)鍵作用。典型物理模擬方法可計(jì)算物體表面加速度(如剛體與流體模擬),這些加速度隨后作為聲學(xué)傳輸求解器的輸入以估算空間任意點(diǎn)的聲壓。對(duì)于單固體物體場(chǎng)景,預(yù)計(jì)算方法依賴邊界元法(BEM)預(yù)計(jì)算并存儲(chǔ)物體模態(tài)振動(dòng)產(chǎn)生的聲場(chǎng)分布,實(shí)現(xiàn)頻繁的運(yùn)行時(shí)評(píng)估。
但這些方法難以處理復(fù)雜場(chǎng)景。在動(dòng)態(tài)場(chǎng)景中,發(fā)聲物體相對(duì)于其他場(chǎng)景元素移動(dòng)會(huì)導(dǎo)致聲場(chǎng)持續(xù)變化。這類復(fù)雜場(chǎng)景的實(shí)時(shí)交互需要預(yù)計(jì)算并存儲(chǔ)所有可能情況的聲學(xué)傳輸分布,而準(zhǔn)確表示高維空間中的這些分布具有挑戰(zhàn)性,現(xiàn)有方法無法高效處理此類復(fù)雜任務(wù)。
鑒于神經(jīng)網(wǎng)絡(luò)的隱式表示在各領(lǐng)域展現(xiàn)出的強(qiáng)大表征能力和快速推理優(yōu)勢(shì),北京大學(xué)團(tuán)隊(duì)提出神經(jīng)聲學(xué)傳輸方法。所述方案用神經(jīng)網(wǎng)絡(luò)編碼高維空間中的預(yù)計(jì)算聲學(xué)傳輸,實(shí)現(xiàn)復(fù)雜動(dòng)態(tài)場(chǎng)景的實(shí)時(shí)交互。聽者位置的空間坐標(biāo)通過多分辨率哈希網(wǎng)格編碼,其他條件參數(shù)采用位置編碼處理。這些編碼輸入經(jīng)拼接后由神經(jīng)網(wǎng)絡(luò)處理,利用數(shù)值求解器獲取的數(shù)據(jù)擬合高維聲學(xué)傳輸空間。
為便于合成訓(xùn)練數(shù)據(jù),實(shí)現(xiàn)CUDA加速的邊界元法(BEM)用于模態(tài)聲音的聲學(xué)傳輸模擬,并針對(duì)邊界條件更光滑的場(chǎng)景提出基于蒙特卡洛的BEM快速近似策略。蒙特卡洛近似對(duì)網(wǎng)格質(zhì)量的敏感性低于傳統(tǒng)BEM,可通過控制樣本數(shù)量顯著降低計(jì)算成本,雖精度適中但完全滿足音效需求。
通過全面實(shí)驗(yàn),驗(yàn)證了神經(jīng)聲學(xué)傳輸方法在動(dòng)態(tài)場(chǎng)景中的有效性與優(yōu)越性,包括編輯模態(tài)聲音物體的材料屬性與尺寸,以及在運(yùn)動(dòng)耦合環(huán)境中渲染動(dòng)態(tài)聲學(xué)效果(見圖1)。值得注意的是,所提出方法僅需1毫秒即可預(yù)測(cè)10秒音頻在動(dòng)態(tài)場(chǎng)景中單聽者位置的聲音變化;對(duì)于模態(tài)聲音物體的材料與尺寸編輯,僅需2毫秒即可預(yù)測(cè)新材質(zhì)尺寸的聲學(xué)傳輸圖,較先前神經(jīng)方法(NeuralSound)提速數(shù)個(gè)數(shù)量級(jí)且精度更高。這一突破使復(fù)雜動(dòng)態(tài)場(chǎng)景中的實(shí)時(shí)聲學(xué)交互成為可行且實(shí)用的技術(shù)。

研究人員全面評(píng)估基于蒙特卡洛的BEM近似法(BEM-MC)的精度與效率,從多角度分析性能,與傳統(tǒng)技術(shù)對(duì)比并研究不同采樣設(shè)置的影響。BEM-MC以遠(yuǎn)場(chǎng)聲學(xué)傳輸(FFAT)圖作為低頻模態(tài)振動(dòng)聲學(xué)傳輸?shù)木仍u(píng)估指標(biāo),以BEM為基準(zhǔn),通過FFAT圖的信噪比(SNR)和結(jié)構(gòu)相似性(SSIM)評(píng)估求解器性能。
實(shí)驗(yàn)使用多個(gè)3D模型測(cè)試不同采樣設(shè)置,僅計(jì)算前8個(gè)滿足光滑諾伊曼條件的模態(tài)FFAT圖。BEM-MC的性能直接受采樣策略(尤其是采樣點(diǎn)數(shù)量)影響,因此比較了不同泊松碟采樣配置(采樣點(diǎn)數(shù)量各異)。鑒于泊松碟采樣本身會(huì)增加采樣時(shí)間,需證明其精度提升能完全抵消額外計(jì)算成本,故同時(shí)與隨機(jī)采樣對(duì)比。所有采樣策略的線性求解器設(shè)置一致:容差1×10??,最大迭代200次。

圖7展示不同3D模型的聲學(xué)傳輸結(jié)果:采用泊松碟采樣的BEM-MC結(jié)果與基準(zhǔn)高度接近,而隨機(jī)采樣的BEM-MC在SNR和SSIM上精度極低。研究明確表明泊松碟采樣較隨機(jī)采樣精度顯著提升,因其提供更均勻分布的點(diǎn)位從而降低方程求解方差。盡管泊松碟采樣需額外初始時(shí)間(約10毫秒,隨機(jī)采樣約1毫秒),但其收斂速度更快。詳細(xì)時(shí)間成本見表3,進(jìn)一步證明該方法在聲學(xué)建模中的效率與有效性。

精度評(píng)估表明,BEM-MC在網(wǎng)格魯棒性、精度和計(jì)算效率上優(yōu)于傳統(tǒng)方法。與BEM對(duì)比:BEM-MC對(duì)網(wǎng)格質(zhì)量的適應(yīng)性更具優(yōu)勢(shì),尤其在現(xiàn)實(shí)采集數(shù)據(jù)中存在次優(yōu)網(wǎng)格結(jié)構(gòu)時(shí)。圖8對(duì)比BEM-MC與BEM,顯示BEM-MC在挑戰(zhàn)性網(wǎng)格條件下始終優(yōu)于傳統(tǒng)BEM(傳統(tǒng)BEM易受邊界數(shù)據(jù)局部混疊影響,特別在含不規(guī)則單元的網(wǎng)格中)。而BEM-MC對(duì)網(wǎng)格質(zhì)量依賴性較低,因?yàn)辄c(diǎn)采樣對(duì)網(wǎng)格條件不敏感。如圖7和表3所示,BEM-MC超越CUDA加速的BEM。
對(duì)于數(shù)據(jù)集合成與驗(yàn)證,選擇平板作為測(cè)試對(duì)象,通過調(diào)整楊氏模量與密度比值(范圍7.8×10?至2.6×10?)改變材料屬性(涵蓋玻璃、陶瓷、木材和金屬等常見材料),平板直徑隨機(jī)變化于0.1米至0.2米之間。測(cè)試求解器需計(jì)算材料或尺寸變化后前60個(gè)模態(tài)的FFAT圖。根據(jù)亥姆霍茲方程,頻率與尺寸的乘積決定聲學(xué)傳輸結(jié)果,故將頻率與尺寸的乘積設(shè)為條件參數(shù)v。為訓(xùn)練NAT,使用CUDA加速BEM作為基準(zhǔn),計(jì)算了1000個(gè)平板(隨機(jī)分配材料與尺寸)的前60個(gè)主導(dǎo)模態(tài)的聲學(xué)數(shù)據(jù)。由于高頻模態(tài)形狀復(fù)雜且非光滑,為保持?jǐn)?shù)值穩(wěn)定性未使用MC近似,但發(fā)現(xiàn)低頻模態(tài)形狀中MC近似仍穩(wěn)定。
團(tuán)隊(duì)比較三種方法:BEM(基準(zhǔn))、NeuralSound和他們提出的方案,以FFAT圖的SNR和SSIM作為指標(biāo)。NeuralSound是用于快速模態(tài)聲音合成的神經(jīng)網(wǎng)絡(luò)架構(gòu),本文僅考慮其聲學(xué)傳輸部分(將表面位移和振動(dòng)模式頻率編碼為標(biāo)量值FFAT圖以壓縮聲學(xué)傳輸函數(shù))。圖2展示所有測(cè)試求解器的對(duì)比FFAT圖,表明NAT始終比NeuralSound更接近BEM精度。

表1呈現(xiàn)不同求解器計(jì)算前60個(gè)模態(tài)FFAT圖的時(shí)間成本與平均精度,清楚證明NAT在速度與精度上的顯著優(yōu)勢(shì)。NAT速度足夠快,無需在實(shí)時(shí)評(píng)估前預(yù)計(jì)算FFAT圖(其他方法需要)。鑒于FFAT圖分辨率為64×32,NAT計(jì)算成本僅2毫秒,意味著可同時(shí)以500幀/秒速度為1024個(gè)位置預(yù)測(cè)聲學(xué)傳輸。NAT可作為高性能、高精度、自適應(yīng)預(yù)計(jì)算聲學(xué)傳輸方法,用于模態(tài)聲音物體的實(shí)時(shí)材料與尺寸編輯。演示請(qǐng)參見附件視頻。
研究人員提出的神經(jīng)聲學(xué)傳輸框架實(shí)現(xiàn)了復(fù)雜聲學(xué)環(huán)境中的實(shí)時(shí)交互。通過廣泛演示,所述方法成為多種交互式聲學(xué)建模場(chǎng)景的適應(yīng)性強(qiáng)大多功能工具。其多功能性與實(shí)時(shí)處理能力標(biāo)志著聲學(xué)模擬領(lǐng)域的進(jìn)步。另外,通過利用蒙特卡洛近似合成訓(xùn)練數(shù)據(jù),該方法在保持音效模擬足夠精度的同時(shí)顯著加速數(shù)據(jù)生產(chǎn),是一項(xiàng)有價(jià)值且前景廣闊的探索。
相關(guān)論文:NAT: Neural Acoustic Transfer for Interactive Scenes in Real Time
https://arxiv.org/pdf/2506.06190
盡管取得進(jìn)展,但這一方法依然存在局限:NAT中神經(jīng)網(wǎng)絡(luò)的超參數(shù)尚未微調(diào),探索編碼器最優(yōu)選擇與超參數(shù)配置是未來研究有價(jià)值的方向。當(dāng)前擬合場(chǎng)景參數(shù)的神經(jīng)網(wǎng)絡(luò)條件相對(duì)有限,引入更廣泛的場(chǎng)景參數(shù)并對(duì)其進(jìn)行有效快速訓(xùn)練是未來工作的重要方面;在訓(xùn)練過程中納入更多場(chǎng)景條件有望顯著增強(qiáng)NAT在多樣動(dòng)態(tài)場(chǎng)景中捕捉復(fù)雜細(xì)節(jié)的多功能性與性能。未來探索的激動(dòng)人心方向是將框架應(yīng)用于虛擬現(xiàn)實(shí)環(huán)境,這一方法的實(shí)時(shí)動(dòng)態(tài)能力為在虛擬現(xiàn)實(shí)設(shè)置中創(chuàng)建沉浸式復(fù)雜聲學(xué)場(chǎng)景蘊(yùn)藏巨大潛力,有望為虛擬環(huán)境聲音合成領(lǐng)域開辟新的交互體驗(yàn)與進(jìn)步之路。

