高清电影一区,成人在线电影网,图片区小说区区亚洲影院

文生3D

（中國(guó)AI網(wǎng) 2025年05月05日）文生3D是虛擬現(xiàn)實(shí)和數(shù)字內(nèi)容創(chuàng)作中的一項(xiàng)價(jià)值技術(shù)。然而，用低效提示生成高保真3D對(duì)象并準(zhǔn)確地模擬其物理運(yùn)動(dòng)依然是未解決的挑戰(zhàn)。針對(duì)這個(gè)問(wèn)題，美國(guó)西北大學(xué)團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的框架，利用大型語(yǔ)言模型改進(jìn)提示和擴(kuò)散先驗(yàn)引導(dǎo)的高斯飛濺來(lái)生成具有精確外觀和幾何結(jié)構(gòu)的3D模型。

團(tuán)隊(duì)同時(shí)結(jié)合了基于連續(xù)介質(zhì)力學(xué)的變形圖和顏色正則化，為生成的三維高斯合成生動(dòng)的物理基礎(chǔ)運(yùn)動(dòng)，堅(jiān)持質(zhì)量和動(dòng)量守恒。

通過(guò)將文本到3D生成與基于物理的運(yùn)動(dòng)合成相結(jié)合，框架渲染出具有物理感知運(yùn)動(dòng)的逼真3D對(duì)象，準(zhǔn)確反映對(duì)象在不同材質(zhì)的各種力和約束下的行為。大量的實(shí)驗(yàn)表明，所述方法實(shí)現(xiàn)了高質(zhì)量的運(yùn)動(dòng)。

西北大學(xué)提出基于物理的文本到3D高斯飛濺運(yùn)動(dòng)生成框架第1張

文本到3D建模在創(chuàng)建高度逼真的3D表示方面取得了顯著成就。已有研究在使用文本-圖像先驗(yàn)生成精細(xì)3D對(duì)象方面取得了非常大的進(jìn)展。另外，其他研究在產(chǎn)生給定3D對(duì)象的運(yùn)動(dòng)方面同樣取得了進(jìn)展。

盡管取得了進(jìn)步，但目前的方法在從低效文本提示合成逼真的3D對(duì)象并準(zhǔn)確模擬運(yùn)動(dòng)方面存在挑戰(zhàn)。3DGS由于其出色的精細(xì)細(xì)節(jié)渲染能力、基于點(diǎn)的表示和快速的渲染速度而成為神經(jīng)渲染領(lǐng)域的一項(xiàng)突出技術(shù)。

有人利用3DGS從文本提示生成逼真的3D模型。例如，GSGEN將3DGS與擴(kuò)散先驗(yàn)集成在一起，產(chǎn)生具有高度逼真結(jié)構(gòu)和視覺(jué)保真度的3D對(duì)象。PhysGaussian則利用描述材質(zhì)行為的物理模型來(lái)指導(dǎo)3DGS模擬物體運(yùn)動(dòng)。它們?yōu)槲谋镜?D生成和3D到運(yùn)動(dòng)模擬的集成奠定了堅(jiān)實(shí)的基礎(chǔ)。

然而，現(xiàn)有的文本到3D框架往往以文本到2D圖像生成模型為指導(dǎo)，文本理解能力有限。這一限制可能會(huì)導(dǎo)致在給出糟糕文本提示時(shí)出現(xiàn)令人不滿(mǎn)意的3D生成。

為了克服上述挑戰(zhàn)，美國(guó)西北大學(xué)團(tuán)隊(duì)提出了一個(gè)全新的框架，借助基于LLM的提示改進(jìn)，使文本到3D的物理運(yùn)動(dòng)生成成為可能。

為了實(shí)現(xiàn)這一點(diǎn)，他們使用LLM來(lái)優(yōu)化輸入文本提示。然后，采用三維高斯函數(shù)作為三維對(duì)象表示，利用三維（形狀）擴(kuò)散優(yōu)先和二維（圖像）擴(kuò)散優(yōu)先，引導(dǎo)3DGS生成幾何形狀合理、外觀逼真的逼真三維模型。

西北大學(xué)提出基于物理的文本到3D高斯飛濺運(yùn)動(dòng)生成框架第2張

另外，研究人員通過(guò)使用基于連續(xù)介質(zhì)力學(xué)的變形映射來(lái)變形高斯核，在生成的三維高斯模擬物理運(yùn)動(dòng)。同時(shí)，團(tuán)隊(duì)引入了一種顏色正則化技術(shù)，以確保渲染對(duì)象保持準(zhǔn)確和一致的顏色。因此，框架生成了高質(zhì)量的3D對(duì)象，展示了基于物理的運(yùn)動(dòng)。

當(dāng)然，所提出的框架目前不支持渲染3D對(duì)象表面與光的交互，所以它不能產(chǎn)生反射或陰影等效果。另外，框架只支持有限材質(zhì)類(lèi)型的運(yùn)動(dòng)模擬。所以，未來(lái)的研究可以探索整合先進(jìn)的照明技術(shù)，擴(kuò)大材質(zhì)類(lèi)型的范圍，以增強(qiáng)框架的多功能性和真實(shí)感。

相關(guān)論文：Text-to-3D Gaussian Splatting with Physics-Grounded Motion Generation

總的來(lái)說(shuō)，團(tuán)隊(duì)提出了一個(gè)基于物理的文本到3D運(yùn)動(dòng)生成的創(chuàng)新框架，促進(jìn)了具有逼真，物理感知運(yùn)動(dòng)的高質(zhì)量3D對(duì)象創(chuàng)建，有效地將生成建模與物理驅(qū)動(dòng)的運(yùn)動(dòng)仿真相結(jié)合。

框架集成了四個(gè)創(chuàng)新組件：

LLM提示細(xì)化，確保提示準(zhǔn)確的3D生成；

擴(kuò)散先驗(yàn)指導(dǎo)，將生成過(guò)程導(dǎo)向具有精確形狀和高質(zhì)量視覺(jué)外觀的結(jié)果；

基于連續(xù)介質(zhì)力學(xué)的變形映射，以模擬生成的3D對(duì)象的真實(shí)物理交互和變形；

顏色正則化，實(shí)現(xiàn)一致和準(zhǔn)確的顯色。

這個(gè)統(tǒng)一的管道集成了自然語(yǔ)言處理、生成建模和物理模擬，重新定義了3D內(nèi)容創(chuàng)作的界限，為虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí)等變革性應(yīng)用鋪平了道路。