69av亚洲,久久99精品这里精品3,欧美性猛xxx

文本到空間音頻生成框架

（中國(guó)AI網(wǎng) 2025年06月23日）文本到音頻（TTA）是一種由文本描述生成音頻信號(hào)的技術(shù)，并在近年受到了廣泛的關(guān)注。然而，最近的研究主要集中在文本到單耳音頻。正如我們所知，空間音頻提供了比單聲音頻更身臨其境的聽(tīng)覺(jué)體驗(yàn)，例如在虛擬現(xiàn)實(shí)中。

為了解決這個(gè)問(wèn)題，西北工業(yè)大學(xué)團(tuán)隊(duì)提出了一個(gè)名為DualSpec的文本到空間音頻（TTSA）生成框架。具體來(lái)說(shuō)，它首先訓(xùn)練變分自編碼器（VAEs）從聲音事件音頻中提取latent聲學(xué)表征。然后，給定描述聲音事件和事件方向的文本，使用預(yù)訓(xùn)練的大型語(yǔ)言模型的編碼器將文本轉(zhuǎn)換為文本特征。最后，利用latent聲音表征和文本特征訓(xùn)練擴(kuò)散模型，以用于空間音頻生成。

在推理階段，只需要文本描述就可以生成空間音頻。特別地，為了同時(shí)提高空間聲事件的合成質(zhì)量和方位精度，研究人員提出使用兩種聲學(xué)特征。一種是有利于提高合成質(zhì)量的梅爾譜圖，另一種是有利于提高方位精度的短時(shí)傅立葉變換譜圖。

他們提供了一個(gè)構(gòu)建帶有文本提示的空間音頻數(shù)據(jù)集的管道，以用于VAEs和擴(kuò)散模型的訓(xùn)練。團(tuán)隊(duì)同時(shí)引入了新的空間感知評(píng)估指標(biāo)來(lái)量化生成的空間錄音的方位角誤差。實(shí)驗(yàn)結(jié)果表明，所提出方法可以生成具有高度方向性和事件一致性的空間音頻。

......（全文 2072 字，剩余 1606 字）

請(qǐng)微信掃碼通過(guò)小程序閱讀完整文章
或者登入網(wǎng)站閱讀完整文章
映維網(wǎng)會(huì)員可直接登入網(wǎng)站閱讀
PICO員工可聯(lián)系映維網(wǎng)免費(fèi)獲取權(quán)限