文生立體視頻

中國(guó)AI網(wǎng) 2025年05月05日)立體視頻的出現(xiàn)開辟了多媒體的新視野,特別是在XR應(yīng)用中。盡管XR越來越受歡迎,但由于產(chǎn)生立體視差所涉及的技術(shù)復(fù)雜性,制作立體視頻依然具有挑戰(zhàn)性。

為了解決相關(guān)問題,中國(guó)科學(xué)技術(shù)大學(xué)和Hidream團(tuán)隊(duì)介紹了文本驅(qū)動(dòng)的立體視頻生成系統(tǒng)T-SVG。這種創(chuàng)新的、跨模型的、zero shot的方法通過使用文本提示來創(chuàng)建參考視頻,從而簡(jiǎn)化了視頻生成。

團(tuán)隊(duì)指出,視頻轉(zhuǎn)換成三維點(diǎn)云序列,從兩個(gè)視差細(xì)微的角度進(jìn)行渲染,從而達(dá)到自然的立體效果。T-SVG通過在文本到視頻的生成、深度估計(jì)和視頻繪制中集成最先進(jìn)的、無需訓(xùn)練的技術(shù),代表了立體內(nèi)容創(chuàng)建方面的重大進(jìn)步。

其靈活的架構(gòu)確保了高效率和用戶友好性,無需重新訓(xùn)練即可無縫更新模型。通過簡(jiǎn)化生產(chǎn)流程,T-SVG使更廣泛的受眾能夠訪問立體視頻生成,展示了其在XR領(lǐng)域的革命性潛力。

中科大與Hidream團(tuán)隊(duì)提出文本驅(qū)動(dòng)的零樣本立體視頻生成系統(tǒng)T-SVG  第1張

立體視頻在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等各種應(yīng)用中獲得了顯著的普及,尤其是隨著Apple Vision Pro和Meta Quest等設(shè)備的出現(xiàn),增加了用戶對(duì)立體內(nèi)容的興趣。

然而,立體視頻的制作依然面臨著阻礙其廣泛采用的重大挑戰(zhàn)。人工智能生成內(nèi)容的最新進(jìn)展已經(jīng)改變了媒體創(chuàng)作的許多方面,特別是在文本到視頻生成模型方面。然而,生成立體視頻的技術(shù)并沒有充分利用相關(guān)創(chuàng)新。

制作立體內(nèi)容提出了獨(dú)特的挑戰(zhàn),特別是在產(chǎn)生立體視差時(shí),這涉及到從兩個(gè)角度觀看對(duì)象的位置差異。與更容易獲得的2D視頻生成過程不同,創(chuàng)建立體視頻通常需要詳細(xì)的3D模型或?qū)iT的立體記錄設(shè)備。

傳統(tǒng)方法帶來了巨大的障礙,并使領(lǐng)域?qū)Ψ菍I(yè)人員具有挑戰(zhàn)性。中國(guó)科學(xué)技術(shù)大學(xué)和Hidream團(tuán)隊(duì)認(rèn)為,利用現(xiàn)有模型,而不是針對(duì)特定問題訓(xùn)練新的模型,可以以更高的計(jì)算效率獲得類似的結(jié)果。

他們介紹了文本驅(qū)動(dòng)的立體視頻生成系統(tǒng)T-SVG。這是一種創(chuàng)新的、跨模型的zero shot方法,可優(yōu)化立體視頻生成過程。

通過利用文本到視頻生成、深度估計(jì)和視頻繪制中的先進(jìn)方法,T-SVG可以自動(dòng)創(chuàng)建立體圖像對(duì),并以最小的計(jì)算開銷確保高質(zhì)量的輸出。系統(tǒng)簡(jiǎn)化了制作流程,使立體視頻生成更容易獲得更廣泛的受眾。

為了實(shí)現(xiàn)這一點(diǎn),T-SVG從文本提示開始生成參考視頻,然后對(duì)其進(jìn)行處理以計(jì)算深度圖。深度圖轉(zhuǎn)換成RGBD圖像并建模為3D點(diǎn)云。

模仿人類雙目視覺,點(diǎn)云渲染成一對(duì)具有立體視差的視頻,從而產(chǎn)生引人注目的立體視覺效果。

中科大與Hidream團(tuán)隊(duì)提出文本驅(qū)動(dòng)的零樣本立體視頻生成系統(tǒng)T-SVG  第2張

在實(shí)驗(yàn)中,團(tuán)隊(duì)使用四個(gè)常用指標(biāo),包括峰值信噪比、SSIM、LPIPS和FVD來定量評(píng)估生成視頻的質(zhì)量。相關(guān)指標(biāo)共同評(píng)估了保真度、感知相似性和動(dòng)作一致性,提供了生成內(nèi)容和真實(shí)視頻特征之間一致性的綜合衡量標(biāo)準(zhǔn)。

結(jié)果清楚地表明,所提出的方法在所有指標(biāo)方面都表現(xiàn)出色。

團(tuán)隊(duì)指出,T-SVG通過在文本到視頻生成、深度估計(jì)和視頻繪制中集成最先進(jìn)的、無需訓(xùn)練的技術(shù),代表了在創(chuàng)建立體內(nèi)容方面的重大進(jìn)步。

系統(tǒng)的靈活和模塊化架構(gòu)確保了高效率和用戶友好性,同時(shí)允許與新模型無縫更新,無需再訓(xùn)練。這使得T-SVG高度適應(yīng)未來的發(fā)展,為不斷發(fā)展的應(yīng)用程序提供了巨大的潛力。

相關(guān)論文:T-SVG: Text-Driven Stereoscopic Video Generation

總的來說,文生立體視頻T-SVG技術(shù)標(biāo)志著立體視頻創(chuàng)作的重大進(jìn)步。通過使用文本作為主要輸入,T-SVG簡(jiǎn)化了過程,并使更廣泛的受眾可以訪問它,包括在3D內(nèi)容創(chuàng)建方面專業(yè)知識(shí)有限的人。集成了文本到視頻生成、深度估計(jì)和視頻繪制等前沿方法,團(tuán)隊(duì)優(yōu)化了生產(chǎn)流程,提高了效率。

重要的是,T-SVG的跨模型的特性允許隨著技術(shù)的進(jìn)步輕松替換改進(jìn)的模型。這種靈活性不僅提高了最終結(jié)果,而且強(qiáng)調(diào)了系統(tǒng)持續(xù)改進(jìn)的潛力。最終,T-SVG可以為虛擬體驗(yàn)中的創(chuàng)新應(yīng)用開辟新的途徑,改變立體內(nèi)容的制作和體驗(yàn)方式。