文生3D
(中國(guó)AI網(wǎng) 2025年05月05日)文生3D是虛擬現(xiàn)實(shí)和數(shù)字內(nèi)容創(chuàng)作中的一項(xiàng)價(jià)值技術(shù)。然而,用低效提示生成高保真3D對(duì)象并準(zhǔn)確地模擬其物理運(yùn)動(dòng)依然是未解決的挑戰(zhàn)。針對(duì)這個(gè)問(wèn)題,美國(guó)西北大學(xué)團(tuán)隊(duì)提出了一個(gè)創(chuàng)新的框架,利用大型語(yǔ)言模型改進(jìn)提示和擴(kuò)散先驗(yàn)引導(dǎo)的高斯飛濺來(lái)生成具有精確外觀和幾何結(jié)構(gòu)的3D模型。
團(tuán)隊(duì)同時(shí)結(jié)合了基于連續(xù)介質(zhì)力學(xué)的變形圖和顏色正則化,為生成的三維高斯合成生動(dòng)的物理基礎(chǔ)運(yùn)動(dòng),堅(jiān)持質(zhì)量和動(dòng)量守恒。
通過(guò)將文本到3D生成與基于物理的運(yùn)動(dòng)合成相結(jié)合,框架渲染出具有物理感知運(yùn)動(dòng)的逼真3D對(duì)象,準(zhǔn)確反映對(duì)象在不同材質(zhì)的各種力和約束下的行為。大量的實(shí)驗(yàn)表明,所述方法實(shí)現(xiàn)了高質(zhì)量的運(yùn)動(dòng)。

文本到3D建模在創(chuàng)建高度逼真的3D表示方面取得了顯著成就。已有研究在使用文本-圖像先驗(yàn)生成精細(xì)3D對(duì)象方面取得了非常大的進(jìn)展。另外,其他研究在產(chǎn)生給定3D對(duì)象的運(yùn)動(dòng)方面同樣取得了進(jìn)展。
盡管取得了進(jìn)步,但目前的方法在從低效文本提示合成逼真的3D對(duì)象并準(zhǔn)確模擬運(yùn)動(dòng)方面存在挑戰(zhàn)。3DGS由于其出色的精細(xì)細(xì)節(jié)渲染能力、基于點(diǎn)的表示和快速的渲染速度而成為神經(jīng)渲染領(lǐng)域的一項(xiàng)突出技術(shù)。
有人利用3DGS從文本提示生成逼真的3D模型。例如,GSGEN將3DGS與擴(kuò)散先驗(yàn)集成在一起,產(chǎn)生具有高度逼真結(jié)構(gòu)和視覺(jué)保真度的3D對(duì)象。PhysGaussian則利用描述材質(zhì)行為的物理模型來(lái)指導(dǎo)3DGS模擬物體運(yùn)動(dòng)。它們?yōu)槲谋镜?D生成和3D到運(yùn)動(dòng)模擬的集成奠定了堅(jiān)實(shí)的基礎(chǔ)。
然而,現(xiàn)有的文本到3D框架往往以文本到2D圖像生成模型為指導(dǎo),文本理解能力有限。這一限制可能會(huì)導(dǎo)致在給出糟糕文本提示時(shí)出現(xiàn)令人不滿(mǎn)意的3D生成。
為了克服上述挑戰(zhàn),美國(guó)西北大學(xué)團(tuán)隊(duì)提出了一個(gè)全新的框架,借助基于LLM的提示改進(jìn),使文本到3D的物理運(yùn)動(dòng)生成成為可能。
為了實(shí)現(xiàn)這一點(diǎn),他們使用LLM來(lái)優(yōu)化輸入文本提示。然后,采用三維高斯函數(shù)作為三維對(duì)象表示,利用三維(形狀)擴(kuò)散優(yōu)先和二維(圖像)擴(kuò)散優(yōu)先,引導(dǎo)3DGS生成幾何形狀合理、外觀逼真的逼真三維模型。

另外,研究人員通過(guò)使用基于連續(xù)介質(zhì)力學(xué)的變形映射來(lái)變形高斯核,在生成的三維高斯模擬物理運(yùn)動(dòng)。同時(shí),團(tuán)隊(duì)引入了一種顏色正則化技術(shù),以確保渲染對(duì)象保持準(zhǔn)確和一致的顏色。因此,框架生成了高質(zhì)量的3D對(duì)象,展示了基于物理的運(yùn)動(dòng)。
當(dāng)然,所提出的框架目前不支持渲染3D對(duì)象表面與光的交互,所以它不能產(chǎn)生反射或陰影等效果。另外,框架只支持有限材質(zhì)類(lèi)型的運(yùn)動(dòng)模擬。所以,未來(lái)的研究可以探索整合先進(jìn)的照明技術(shù),擴(kuò)大材質(zhì)類(lèi)型的范圍,以增強(qiáng)框架的多功能性和真實(shí)感。
相關(guān)論文:Text-to-3D Gaussian Splatting with Physics-Grounded Motion Generation
總的來(lái)說(shuō),團(tuán)隊(duì)提出了一個(gè)基于物理的文本到3D運(yùn)動(dòng)生成的創(chuàng)新框架,促進(jìn)了具有逼真,物理感知運(yùn)動(dòng)的高質(zhì)量3D對(duì)象創(chuàng)建,有效地將生成建模與物理驅(qū)動(dòng)的運(yùn)動(dòng)仿真相結(jié)合。
框架集成了四個(gè)創(chuàng)新組件:
LLM提示細(xì)化,確保提示準(zhǔn)確的3D生成;
擴(kuò)散先驗(yàn)指導(dǎo),將生成過(guò)程導(dǎo)向具有精確形狀和高質(zhì)量視覺(jué)外觀的結(jié)果;
基于連續(xù)介質(zhì)力學(xué)的變形映射,以模擬生成的3D對(duì)象的真實(shí)物理交互和變形;
顏色正則化,實(shí)現(xiàn)一致和準(zhǔn)確的顯色。
這個(gè)統(tǒng)一的管道集成了自然語(yǔ)言處理、生成建模和物理模擬,重新定義了3D內(nèi)容創(chuàng)作的界限,為虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí)等變革性應(yīng)用鋪平了道路。

