日本午夜精品久久久久,软萌小仙自慰喷白浆,韩国精品在线观看

新視圖聲學(xué)參數(shù)估計(jì)方法

（中國(guó)AI網(wǎng) 2025年04月21日）新視場(chǎng)聲學(xué)合成（NVAS）的任務(wù)是正在獲得業(yè)界關(guān)注，特別是考慮到它與增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)發(fā)展的相關(guān)性。然而，大多努力都存在類(lèi)似的局限性：它們推斷時(shí)域的RIR，這證明了優(yōu)化的挑戰(zhàn)性；專(zhuān)注于簡(jiǎn)單、單房間的場(chǎng)景；只能推斷出單通道、方向無(wú)關(guān)的聲學(xué)特性；而且需要輸入，例如具有材質(zhì)屬性的3D幾何網(wǎng)格。

另一方面，研究表明，在AR和VR中的感知合理性不需要RIR的采樣精度。諸如C50或T60等標(biāo)準(zhǔn)聲學(xué)參數(shù)已證明能夠描述RIR的相關(guān)特性，特別是后期混響。

為了解決相關(guān)差距，芬蘭阿爾托大學(xué)和Meta團(tuán)隊(duì)提出了一個(gè)新的任務(wù)：新視圖聲學(xué)參數(shù)估計(jì)方法。他們使用單個(gè)隨機(jī)選擇的RIR作為校準(zhǔn)輸入，以建立模型對(duì)聲學(xué)環(huán)境的理解，并將任務(wù)框架為圖像到圖像的轉(zhuǎn)換問(wèn)題。

研究人員提出了一個(gè)模型架構(gòu)，它能夠使用簡(jiǎn)單的二維平面圖形式的有限幾何信息，以及參考RIR作為輸入，共同估計(jì)多個(gè)頻帶的多個(gè)空間分布聲學(xué)參數(shù)。

實(shí)驗(yàn)表明所提出方法顯著優(yōu)于統(tǒng)計(jì)基線，適用于方向相關(guān)（即波束形成）參數(shù)預(yù)測(cè)。最后，所述方法可以在非常有限的信息下運(yùn)行，在推理時(shí)只需要場(chǎng)景的大致輪廓和單個(gè)RIR。

Meta提出NVAPE技術(shù)，革新VR聲學(xué)建模第1張

當(dāng)我們致力于為有效的娛樂(lè)、通信和遠(yuǎn)程呈現(xiàn)探索增強(qiáng)現(xiàn)實(shí)和虛擬現(xiàn)實(shí)技術(shù)時(shí)，實(shí)現(xiàn)合理的聲學(xué)是沉浸式體驗(yàn)的關(guān)鍵要求。

研究表明，在封閉空間中使用精確的聲學(xué)模型（聲音如何穿過(guò)走廊、從墻壁和家具上反彈并在略微不同的時(shí)間到達(dá)我們的耳朵的模型）來(lái)渲染虛擬聲音，可以提高可理解性、聲音定位準(zhǔn)確性以及共存在感和聯(lián)結(jié)感。

實(shí)現(xiàn)真實(shí)聲學(xué)效果的一種方法是在不可見(jiàn)的環(huán)境中自動(dòng)推斷房間脈沖響應(yīng)RIR。RIR定義為場(chǎng)景中任意位置的發(fā)射和接收之間的聲學(xué)傳遞函數(shù)，并可以用來(lái)全面描述物理空間的聲學(xué)行為。

新視場(chǎng)聲學(xué)合成（NVAS）是一個(gè)新興的研究領(lǐng)域，并定義為使用描述場(chǎng)景幾何和材質(zhì)屬性的多模態(tài)信息推斷房間內(nèi)或新房間內(nèi)未知源和接收位置的RIR的任務(wù)。

盡管這一領(lǐng)域的前景看好，但之前的研究受到以下因素的限制：對(duì)新場(chǎng)景的泛化能力差，對(duì)復(fù)雜的真實(shí)幾何形狀的處理能力差，忽略方向依賴性的單通道RIR估計(jì)，以及對(duì)高維輸入數(shù)據(jù)的要求，例如具有標(biāo)記材質(zhì)屬性的完整3D網(wǎng)格。

芬蘭阿爾托大學(xué)和Meta團(tuán)隊(duì)考慮了多個(gè)新的方向來(lái)克服相關(guān)限制。首先，他們研究更精細(xì)的場(chǎng)景幾何，更好地反映現(xiàn)實(shí)世界的空間，即多室公寓。多房間公寓通常具有復(fù)雜的混響和聲音傳輸模式，如非均勻性和各向異性，這使得它們很難建模。

其次，研究人員直覺(jué)地認(rèn)為，對(duì)完整的RIR建模對(duì)于感知合理性并不必要，特別是對(duì)于多房公寓。先前的研究表明，像清晰度指數(shù)（C50）和混響時(shí)間（T60）這樣的聲學(xué)參數(shù)可以作為可行的預(yù)測(cè)目標(biāo)，并用于通知下游混響器生成可信的RIR。

最后，假設(shè)將機(jī)器學(xué)習(xí)模型與最小的聲學(xué)背景相結(jié)合，可以減少對(duì)詳細(xì)幾何輸入的需求。

Meta提出NVAPE技術(shù)，革新VR聲學(xué)建模第2張

在研究中，團(tuán)隊(duì)以NVAS先前研究作為基礎(chǔ)，介紹并提出了一種新任務(wù)，即新視圖聲學(xué)參數(shù)估計(jì)（NVAPE）。在這里，他們使用有限的幾何信息來(lái)預(yù)測(cè)場(chǎng)景的二維聲學(xué)參數(shù)，不需要精確的材質(zhì)屬性。

他們使用單個(gè)隨機(jī)選擇的RIR作為校準(zhǔn)輸入，以建立模型對(duì)聲學(xué)環(huán)境的理解，并將任務(wù)框架為圖像到圖像的轉(zhuǎn)換問(wèn)題。

換句話說(shuō)，NVAPE旨在作為NVAS任務(wù)的替代方案，它不需要詳細(xì)的幾何信息作為輸入，并且基于感知聲學(xué)。團(tuán)隊(duì)同時(shí)構(gòu)建了一個(gè)新的數(shù)據(jù)集來(lái)研究這個(gè)任務(wù)，并提出了一種深度學(xué)習(xí)模型來(lái)解決相關(guān)任務(wù)。

實(shí)驗(yàn)證明，所述模型在新任務(wù)優(yōu)于基線，并在現(xiàn)有任務(wù)達(dá)到最先進(jìn)的基準(zhǔn)。

相關(guān)論文：Novel View Acoustic Parameter Estimation

總的來(lái)說(shuō)，團(tuán)隊(duì)確定了一個(gè)新的任務(wù)：新視圖聲學(xué)參數(shù)估計(jì)。這需要預(yù)測(cè)未見(jiàn)場(chǎng)景和任意源和發(fā)射器位置的聲學(xué)參數(shù)，并用于調(diào)節(jié)混響器以產(chǎn)生RIR。研究人員提出了一個(gè)模型架構(gòu)，它能夠使用簡(jiǎn)單的二維平面圖形式的有限幾何信息，以及參考RIR作為輸入，共同估計(jì)多個(gè)頻帶的多個(gè)空間分布聲學(xué)參數(shù)。