文本到空間音頻生成框架
(中國(guó)AI網(wǎng) 2025年06月23日)文本到音頻(TTA)是一種由文本描述生成音頻信號(hào)的技術(shù),并在近年受到了廣泛的關(guān)注。然而,最近的研究主要集中在文本到單耳音頻。正如我們所知,空間音頻提供了比單聲音頻更身臨其境的聽(tīng)覺(jué)體驗(yàn),例如在虛擬現(xiàn)實(shí)中。
為了解決這個(gè)問(wèn)題,西北工業(yè)大學(xué)團(tuán)隊(duì)提出了一個(gè)名為DualSpec的文本到空間音頻(TTSA)生成框架。具體來(lái)說(shuō),它首先訓(xùn)練變分自編碼器(VAEs)從聲音事件音頻中提取latent聲學(xué)表征。然后,給定描述聲音事件和事件方向的文本,使用預(yù)訓(xùn)練的大型語(yǔ)言模型的編碼器將文本轉(zhuǎn)換為文本特征。最后,利用latent聲音表征和文本特征訓(xùn)練擴(kuò)散模型,以用于空間音頻生成。
在推理階段,只需要文本描述就可以生成空間音頻。特別地,為了同時(shí)提高空間聲事件的合成質(zhì)量和方位精度,研究人員提出使用兩種聲學(xué)特征。一種是有利于提高合成質(zhì)量的梅爾譜圖,另一種是有利于提高方位精度的短時(shí)傅立葉變換譜圖。
他們提供了一個(gè)構(gòu)建帶有文本提示的空間音頻數(shù)據(jù)集的管道,以用于VAEs和擴(kuò)散模型的訓(xùn)練。團(tuán)隊(duì)同時(shí)引入了新的空間感知評(píng)估指標(biāo)來(lái)量化生成的空間錄音的方位角誤差。實(shí)驗(yàn)結(jié)果表明,所提出方法可以生成具有高度方向性和事件一致性的空間音頻。
......(全文 2072 字,剩余 1606 字)
請(qǐng)微信掃碼通過(guò)小程序閱讀完整文章或者登入網(wǎng)站閱讀完整文章
映維網(wǎng)會(huì)員可直接登入網(wǎng)站閱讀
PICO員工可聯(lián)系映維網(wǎng)免費(fèi)獲取權(quán)限

