3D場景生成框架
(中國AI網 2025年07月18日)根據文本描述、參考圖像或兩者自動生成完整3D場景在虛擬現實等領域具有重要應用。然而,目前的方法經常產生低質量的紋理和不一致的3D結構。為了解決所述挑戰,OPPO和圣路易斯華盛頓大學團隊提出了PanoDreamer,一個具有靈活文本和圖像控制的一致3D場景生成框架。
所述方法采用大型語言模型和warp-refine管道,首先生成一組初始圖像,然后將它們合成成360度全景圖。這個全景然后提升到3D,形成一個初始點云。接下來,使用數種方法從不同的角度生成與初始點云一致的附加圖像,并擴展/細化初始點云。給定結果圖像集,研究人員利用3D高斯飛濺來創建最終的3D場景,然后可以從不同的角度渲染。實驗證明了PanoDreamer在生成高質量、幾何一致的3D場景方面的有效性。

在VR/AR等行業中,文生3D的巨大潛力有望建立一種強大的沉浸式場景內容創作方法。擴散模型的最新發展使得從文本生成高質量、幾何正確的圖像成為可能,從而允許定制2D內容生成。基于2D文本到圖像生成的最新進展,一系列的研究開始關注3D場景生成。有人首先基于參考圖像生成初始點云,采用漸進式warp-and-refine方法完成3D場景重建。然而,由于攝像頭的視場有限,相關方法需要多次迭代才能生成完整的場景,而且每次迭代都完全依賴于前一階段的信息。所以,單目深度估計的誤差積累和擴散產生的偽影阻礙了模型保持長期幾何和外觀一致性的能力。
為了克服所述挑戰,最近的研究利用全景到3D場景生成來生成具有更大視場的場景。利用文本-全景生成技術的進步,相關方法使用全景圖作為3D場景的中間表示,隨后使用神經輻射場(NeRF)或3D高斯飛濺獲得3D表示。然而,由于幾何結構是基于單一全景,生成的3D場景具有有限的空間范圍,并且受到遮擋的顯著影響。所以,用戶在場景中移動的自由受到限制,極大地限制了3D模型的實用性。
在一項研究中,OPPO和圣路易斯華盛頓大學團隊提出了PanoDreamer。這個新穎的框架可以實現具有幾何一致性的全局級場景生成,并允許定制的3D場景擴展。所提出方法采用多階段管道:首先生成靜態全景場景,然后根據用戶定義的初始圖像和camera軌跡動態擴展場景。
為了生成靜態全景場景,給定文本提示和/或用戶提供的參考圖像,使用LLM引擎從初始視點合成圖像,并將它們合成為完整的等矩形全景。這個全景然后提升到3D,以創建一個初始點云。接下來,從不同的角度生成一組額外的圖像。研究人員使用視場條件視頻擴散模型來生成基于用戶指定的初始圖像和軌跡的序列,從而實現連續的、幾何一致的場景生成和對視點轉換的靈活控制。使用深度對齊將生成的點云組成一個全局點云,然后使用3D高斯飛濺生成3D場景表示。
為了增強場景的完整性,團隊提出了一種生成一組補充視圖的策略,并使用語義保持的生成warp框架來繪制遮擋區域。補充視點,連同它們的圖像用來細化3D高斯分布,從而減少偽影,增強場景的完整性。
為了評估3D場景生成的質量,研究人員將所提出方法與最先進的3D場景生成方法進行了比較:Text2Room采用迭代網格生成方法來表示基于手繪和單目深度估計的場景,LucidDreamer采用變形和細化策略來迭代生成新視圖的點云,隨后采用3D高斯飛濺來獲得場景的高斯分布。
由于LucidDreamer不能直接從文本提示生成3D-GS,因此使用Stable Diffusion v2.1來生成初始條件反射圖像,以確保一致性。對比如圖3和表1所示。結果表明,Text2Room在包含樣式描述時難以生成連貫的場景。由于渲染-細化-重復方案,當生成的圖像之間存在顯著差異時,Text2Room會遇到對齊問題,這阻礙了模型有效區分重疊區域。當提示符包含大量對象描述時,這個問題尤其明顯。

另一方面,LucidDreamer只能在有限的camera運動下生成連貫的場景。由于其warp-and-inpaint生成方案固有的幾何誤差的積累,Text2Room和LucidDreamer都無法保持視圖之間的一致性。所以,它們在相鄰對象之間的交叉處表現出模糊的邊界和偽影。
相反,方法在室內和室外場景中產生高質量的結果,邊界光滑,偽影較少。另外,模型即便在大幅camera運動下都能實現魯棒的幾何一致性,使其與比較的方法區別開來。圖4展示了與先前方法進行比較結果。MultiDiffusion使用校正擴散直接生成全景圖,而MVDiffusion首先使用擴散模型生成透視圖像,然后將其合成為全景圖。
結果表明,在LLM的指導下,OPPO和圣路易斯華盛頓大學團隊提出的模型有效地避免了重復對象的生成,顯著提高了內容的多樣性和生成質量。同時,圖5給出了可視化定性結果。結果表明,渲染圖像顯示出精確的深度圖,驗證了渲染結果的精確幾何形狀。

另外,團隊進行了燒蝕研究。如表2所示,相關方法增強了3D高斯飛濺的細化階段,同時減少了渲染結果中的偽影。移除深度對齊模塊會導致場景之間的混合問題,導致像素錯位,并在3D高斯生成過程中增加幾何偏差。由于3D-GS在很大程度上依賴于精確的點云初始化,因此結合深度對齊可以減少全景場景和運動場景之間的不對齊,最終提高渲染圖像的質量。
表2進一步比較了其與其他方法的渲染質量。結果表明,排除輔助camera細化或深度對齊都會導致渲染質量的顯著下降。相關發現強調了這兩個組件在實現高質量場景重建中的重要性。
相關論文:PanoDreamer: Consistent Text to 360-Degree Scene Generation
https://arxiv.org/pdf/2504.05152
總的來說,PanoDreamer是一個文本到360度場景生成框架。所述方法的核心思想是將場景生成分解為兩個階段:單視點場景生成和通過移動camera模擬進行場景擴展。第一階段使用LLM來指導圖像的合成,然后將其融合形成全景。在第二階段,使用兩種不同的生成策略對模型進行擴展和改進。
實驗證明,所提出方法產生了高質量的,幾何一致的場景,并允許用戶能夠沿著初始之外的定制軌跡自由導航,顯著拓寬了潛在應用的范圍。另外,所述方法在廣泛的度量標準中始終優于強大的基線。展望未來,團隊計劃解決的一個關鍵挑戰是隨著場景規模變大而累積的誤差。

