利用3DGS實現(xiàn)幾何一致性和可控3D生成
(中國AI網(wǎng) 2025年06月18日)單圖像三維生成已經(jīng)成為一個突出的研究課題,在虛擬現(xiàn)實等領(lǐng)域中發(fā)揮著至關(guān)重要的作用。然而,現(xiàn)有方法在生成過程中缺乏多視圖幾何一致性和可控性等問題,嚴(yán)重制約了其可用性。為了應(yīng)對所述挑戰(zhàn),騰訊團(tuán)隊提出了Dragen3D。
這是一種利用3DGS實現(xiàn)幾何一致性和可控3D生成的新方法。團(tuán)隊引入了錨定-高斯變分自編碼器,以將點云和單幅圖像編碼為錨定latent,并將latent解碼為3DGS,從而實現(xiàn)了高效的latent-space生成。
為了實現(xiàn)多視圖幾何的一致性和可控生成,研究人員提出了一種種子點驅(qū)動策略:首先生成稀疏的種子點作為粗略的幾何表示,然后通過種子錨點映射模塊將其映射到錨點。通過易于學(xué)習(xí)的稀疏種子點來保證幾何一致性,用戶可以直觀地拖動種子點來變形最終的3DGS幾何,并通過錨點傳播變化。它實現(xiàn)了幾何可控的3D高斯生成和編輯,不依賴于2D擴(kuò)散先驗,并提供與最先進(jìn)方法相當(dāng)?shù)?D生成質(zhì)量。

3D生成是目前非常熱門的領(lǐng)域,在研究和工業(yè)場景中有著廣泛的應(yīng)用。但與傳統(tǒng)的3D建模過程相比(美術(shù)可以直接交互和編輯高質(zhì)量的3D模型),在3D生成過程中實現(xiàn)高幾何保真度和直接編輯依然是一個有待深入研究的領(lǐng)域。在從單視圖圖像生成3D模型的背景下,這一挑戰(zhàn)變得更加明顯。對于輸入圖像中不可見的模型部分,生成的結(jié)果可能與可見區(qū)域表現(xiàn)出明顯的風(fēng)格差異,無法實現(xiàn)多視圖幾何一致性,甚至看起來不真實。
為了與美術(shù)的創(chuàng)作愿望和建模要求保持一致,有研究人員通過輸入圖像修改或預(yù)定義的編輯操作探索了用戶控制,但相關(guān)方法并不能有效地解決上述問題。
為了提高生成的3D模型的實用性和質(zhì)量,騰訊團(tuán)隊的目標(biāo)是開發(fā)一種能夠?qū)崿F(xiàn)多視圖幾何形狀一致的3D生成方法,同時允許用戶在生成過程中直接調(diào)整和控制3D形狀。所以,他們提出了一種創(chuàng)新的方法Dragen3D,利用稀疏的種子點來處理由3DGS表示的對象形狀,并在3D生成框架內(nèi)增強(qiáng)多視圖幾何形狀的一致性。
為了實現(xiàn)這一點,他們訓(xùn)練了一個變分自編碼器(VAE),它將對象的復(fù)雜3D信息編碼到緊湊的latent空間中,并準(zhǔn)確地解碼回3D域,同時支持在latent空間中后續(xù)的3D生成。然后,他們介紹了一個模塊,任務(wù)是生成與輸入圖像中描繪的對象對應(yīng)的3D種子點。由于易于學(xué)習(xí)種子點的稀疏分布,這確保了種子點的幾何一致性。以其作為基礎(chǔ),引入映射模塊將種子點信息與VAE latentt空間進(jìn)行關(guān)聯(lián)。
實驗表明,Dragen3D產(chǎn)生的多視圖幾何一致的3D結(jié)果如圖9所示。當(dāng)種子點發(fā)生變形時,相應(yīng)的latent code隨之更新,解碼后生成最終變形的3D輸出,如圖8所示。
團(tuán)隊指出,Drangen3D方法以圖像為輸入,生成具有多視圖幾何一致性的三維高斯函數(shù)表示的3D對象,在此過程中允許用戶交互編輯幾何圖形。如圖2所示,首先訓(xùn)練一個AnchorGaussian (Anchor-GS) VAE,它將復(fù)雜的3D信息編碼到latent空間中,并將其解碼為3DGS,以便在latent空間中進(jìn)行后續(xù)生成。
然后,種子點驅(qū)動的可控生成模塊用于單幅圖像的3D生成。模塊首先生成由一組稀疏表面點表示的粗糙初始幾何形狀,稱為種子點,而他們可以通過變形種子點來應(yīng)用編輯。然后設(shè)計映射模塊,將(編輯過的)種子點信息映射到latent空間,隨后解碼為3DGS。圖7給出了Anchor-GS VAE的結(jié)果。給定點云和單個圖像,Anchor-GS VAE可以通過詳細(xì)的幾何和紋理實現(xiàn)高質(zhì)量的重建。
研究人員使用峰值信噪比(PSNR)、感知質(zhì)量度量LPIPS和結(jié)構(gòu)相似性指數(shù)(SSIM)作為評估指標(biāo)來評估預(yù)測和真實圖像之間不同方面的相似性。另外,他們報告了推斷單個3DGS所需的時間。使用單個圖像作為輸入,并使用所有可用視圖作為測試視圖來評估3D生成質(zhì)量,以比較所提出方法。所有渲染都以512的分辨率執(zhí)行。表1給出了所提出方法與以前SOTA方法在Objaverse和GSO數(shù)據(jù)集的定量評價結(jié)果。
LGM中使用的多視點擴(kuò)散模型往往會產(chǎn)生更多樣化但不可控的結(jié)果,并且缺乏精確的相機(jī)姿態(tài)控制。所以,它在密集視點評估中失敗,在Objaverse和GSO測試集分別獲得了12.76和13.81的PSNR分?jǐn)?shù)。如表1所示,在密集視點評價中,LGM和LaRa受到二維擴(kuò)散模型多視點不一致性的影響,得分相對較低。

相比之下,團(tuán)隊提出的方法在兩個數(shù)據(jù)集上都取得了最好的結(jié)果,在推理時間上只有輕微的開銷。圖9展示了來自O(shè)bjaverse數(shù)據(jù)集的前六行和來自GSO數(shù)據(jù)集的最后三行。使用相同的camera視點對所有方法進(jìn)行比較。對于Objaverse數(shù)據(jù)集,渲染視點是相對于輸入視點的左視圖和后視圖,而對于GSO數(shù)據(jù)集,選擇視圖是為了盡可能完整地展示對象。
與使用二維擴(kuò)散先驗的方法(如LGM和LaRa)相比,團(tuán)隊提出的方法展示了更好的多視圖幾何一致性。與TGS相比,團(tuán)隊的方法更有效地學(xué)習(xí)了3D對象分布,從而獲得了幾何上更一致的多視圖結(jié)果。
基于拖動的編輯結(jié)果如圖8所示,所提出方法實現(xiàn)了種子點驅(qū)動的變形。從輸入圖像中生成的種子點開始,種子點的稀疏特性允許使用3D工具(例如Blender[)進(jìn)行一些拖動操作即可輕松編輯。編輯后的3DGS可以在2秒內(nèi)得到。
相關(guān)論文:Dragen3D: Multiview Geometry Consistent 3D Gaussian Generation with Drag-Based Control
總的來說,Dragen3D是一個基于拖動編輯的多視圖幾何一致的單圖像3DGS生成框架。研究人員提出了Anchor-GS VAE,它將三維幾何和紋理編碼為anchor latents,并將其解碼為3DGS。結(jié)合單幅圖像的種子點生成、用戶交互的種子點編輯和種子到anchor latents的映射,他們能夠生成和控制最終的輸出3DGS。
跨多個數(shù)據(jù)集的評估表明,Dragen3D從單個圖像中實現(xiàn)了最先進(jìn)的3DGS質(zhì)量。然而,所提出方法有改進(jìn)的余地。首先,結(jié)合基于提示的3D外觀編輯可能是一個有趣的探索方向,特別是當(dāng)與現(xiàn)有的多模態(tài)大型模型集成時。另外,訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量限制了模型的能力,而這可以通過更多的計算資源來進(jìn)一步提高。

