新視圖聲學(xué)參數(shù)估計(jì)方法
(中國(guó)AI網(wǎng) 2025年04月21日)新視場(chǎng)聲學(xué)合成(NVAS)的任務(wù)是正在獲得業(yè)界關(guān)注,特別是考慮到它與增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)發(fā)展的相關(guān)性。然而,大多努力都存在類(lèi)似的局限性:它們推斷時(shí)域的RIR,這證明了優(yōu)化的挑戰(zhàn)性;專(zhuān)注于簡(jiǎn)單、單房間的場(chǎng)景;只能推斷出單通道、方向無(wú)關(guān)的聲學(xué)特性;而且需要輸入,例如具有材質(zhì)屬性的3D幾何網(wǎng)格。
另一方面,研究表明,在AR和VR中的感知合理性不需要RIR的采樣精度。諸如C50或T60等標(biāo)準(zhǔn)聲學(xué)參數(shù)已證明能夠描述RIR的相關(guān)特性,特別是后期混響。
為了解決相關(guān)差距,芬蘭阿爾托大學(xué)和Meta團(tuán)隊(duì)提出了一個(gè)新的任務(wù):新視圖聲學(xué)參數(shù)估計(jì)方法。他們使用單個(gè)隨機(jī)選擇的RIR作為校準(zhǔn)輸入,以建立模型對(duì)聲學(xué)環(huán)境的理解,并將任務(wù)框架為圖像到圖像的轉(zhuǎn)換問(wèn)題。
研究人員提出了一個(gè)模型架構(gòu),它能夠使用簡(jiǎn)單的二維平面圖形式的有限幾何信息,以及參考RIR作為輸入,共同估計(jì)多個(gè)頻帶的多個(gè)空間分布聲學(xué)參數(shù)。
實(shí)驗(yàn)表明所提出方法顯著優(yōu)于統(tǒng)計(jì)基線,適用于方向相關(guān)(即波束形成)參數(shù)預(yù)測(cè)。最后,所述方法可以在非常有限的信息下運(yùn)行,在推理時(shí)只需要場(chǎng)景的大致輪廓和單個(gè)RIR。

當(dāng)我們致力于為有效的娛樂(lè)、通信和遠(yuǎn)程呈現(xiàn)探索增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)技術(shù)時(shí),實(shí)現(xiàn)合理的聲學(xué)是沉浸式體驗(yàn)的關(guān)鍵要求。
研究表明,在封閉空間中使用精確的聲學(xué)模型(聲音如何穿過(guò)走廊、從墻壁和家具上反彈并在略微不同的時(shí)間到達(dá)我們的耳朵的模型)來(lái)渲染虛擬聲音,可以提高可理解性、聲音定位準(zhǔn)確性以及共存在感和聯(lián)結(jié)感。
實(shí)現(xiàn)真實(shí)聲學(xué)效果的一種方法是在不可見(jiàn)的環(huán)境中自動(dòng)推斷房間脈沖響應(yīng)RIR。RIR定義為場(chǎng)景中任意位置的發(fā)射和接收之間的聲學(xué)傳遞函數(shù),并可以用來(lái)全面描述物理空間的聲學(xué)行為。
新視場(chǎng)聲學(xué)合成(NVAS)是一個(gè)新興的研究領(lǐng)域,并定義為使用描述場(chǎng)景幾何和材質(zhì)屬性的多模態(tài)信息推斷房間內(nèi)或新房間內(nèi)未知源和接收位置的RIR的任務(wù)。
盡管這一領(lǐng)域的前景看好,但之前的研究受到以下因素的限制:對(duì)新場(chǎng)景的泛化能力差,對(duì)復(fù)雜的真實(shí)幾何形狀的處理能力差,忽略方向依賴性的單通道RIR估計(jì),以及對(duì)高維輸入數(shù)據(jù)的要求,例如具有標(biāo)記材質(zhì)屬性的完整3D網(wǎng)格。
芬蘭阿爾托大學(xué)和Meta團(tuán)隊(duì)考慮了多個(gè)新的方向來(lái)克服相關(guān)限制。首先,他們研究更精細(xì)的場(chǎng)景幾何,更好地反映現(xiàn)實(shí)世界的空間,即多室公寓。多房間公寓通常具有復(fù)雜的混響和聲音傳輸模式,如非均勻性和各向異性,這使得它們很難建模。
其次,研究人員直覺(jué)地認(rèn)為,對(duì)完整的RIR建模對(duì)于感知合理性并不必要,特別是對(duì)于多房公寓。先前的研究表明,像清晰度指數(shù)(C50)和混響時(shí)間(T60)這樣的聲學(xué)參數(shù)可以作為可行的預(yù)測(cè)目標(biāo),并用于通知下游混響器生成可信的RIR。
最后,假設(shè)將機(jī)器學(xué)習(xí)模型與最小的聲學(xué)背景相結(jié)合,可以減少對(duì)詳細(xì)幾何輸入的需求。

在研究中,團(tuán)隊(duì)以NVAS先前研究作為基礎(chǔ),介紹并提出了一種新任務(wù),即新視圖聲學(xué)參數(shù)估計(jì)(NVAPE)。在這里,他們使用有限的幾何信息來(lái)預(yù)測(cè)場(chǎng)景的二維聲學(xué)參數(shù),不需要精確的材質(zhì)屬性。
他們使用單個(gè)隨機(jī)選擇的RIR作為校準(zhǔn)輸入,以建立模型對(duì)聲學(xué)環(huán)境的理解,并將任務(wù)框架為圖像到圖像的轉(zhuǎn)換問(wèn)題。
換句話說(shuō),NVAPE旨在作為NVAS任務(wù)的替代方案,它不需要詳細(xì)的幾何信息作為輸入,并且基于感知聲學(xué)。團(tuán)隊(duì)同時(shí)構(gòu)建了一個(gè)新的數(shù)據(jù)集來(lái)研究這個(gè)任務(wù),并提出了一種深度學(xué)習(xí)模型來(lái)解決相關(guān)任務(wù)。
實(shí)驗(yàn)證明,所述模型在新任務(wù)優(yōu)于基線,并在現(xiàn)有任務(wù)達(dá)到最先進(jìn)的基準(zhǔn)。
相關(guān)論文:Novel View Acoustic Parameter Estimation
總的來(lái)說(shuō),團(tuán)隊(duì)確定了一個(gè)新的任務(wù):新視圖聲學(xué)參數(shù)估計(jì)。這需要預(yù)測(cè)未見(jiàn)場(chǎng)景和任意源和發(fā)射器位置的聲學(xué)參數(shù),并用于調(diào)節(jié)混響器以產(chǎn)生RIR。研究人員提出了一個(gè)模型架構(gòu),它能夠使用簡(jiǎn)單的二維平面圖形式的有限幾何信息,以及參考RIR作為輸入,共同估計(jì)多個(gè)頻帶的多個(gè)空間分布聲學(xué)參數(shù)。

