查看引用/信息源請點擊:中國AI網

仍處于研究階段,尚未對開發者開放

中國AI網 2025年11月24日)想象一下,只需輸入一個簡單的描述,如”卡通中世紀村莊”或”火星上的科幻基地站”,就能在數分鐘內生成一個交互式的3D世界。這個世界在風格和主題方面將是協調一致:你的火星基地里不會出現世紀中期的現代建筑,你的中世紀村莊里也不會有維多利亞時代的家具。它同時是合理且可通行的,不同區域以某種方式連接,允許角色自由漫游而不會卡住。在幾年前,這聽起來可能還像是科幻小說,但隨著生成式AI技術的最新發展,人們已經能夠基于單一的文本或圖像提示制作出引人入勝的短視頻片段。

Meta日前正式發布WorldGen:這個先進的端到端系統能夠從單一文本提示生成交互式且可導航的3D世界。WorldGen建立在程序化推理、基于擴散模型的3D生成和對象感知的場景分解技術相結合的基礎之上。其結果是生成幾何結構一致、視覺效果豐富且渲染高效的3D世界,適用于游戲、模擬和沉浸式社交環境。

從文本到沉浸式3D世界,Meta發布端到端系統WorldGen  第1張

我們已經見證了在使用生成式AI基于文本和/或圖像提示生成高質量3D資產方面取得的巨大進步。WorldGen結合并創新了多項現有的2D和3D生成技術:首先,WorldGen生成3D場景的圖像,然后進行圖像到3D的重建,所有這些都發生在以下多個階段:

規劃

程序化區塊布局生成

導航網格提取

參考圖像生成

重建

圖像到3D基礎模型

基于導航網格的場景生成

初始場景紋理生成

分解

使用加速版AutoPartGen進行場景部件提取

用于場景分解的數據整理

優化

圖像增強

網格優化模型

紋理貼圖模型

現有的其他方法從圖像或文本提示生成交互式3D世界時,通常基于單一指定視點并由此向外構建,而不是依據全局參考圖像或完整布局進行條件化生成。盡管中心視點附近的幾何結構和紋理質量很高,但當你僅移動3到5米遠時,質量就會迅速下降。相比之下,WorldGen能夠生成橫跨50 x 50米范圍、完全帶紋理的場景,并始終保持風格和幾何結構的完整性。而且我們的目標是未來實現更大的世界尺寸。

當然,這項工作依然處于研究階段,尚未對開發者開放,但WorldGen生成的內容與包括 Unity 和 Unreal 在內的標準游戲引擎兼容,無需額外的轉換或渲染管道。

Meta表示:”WorldGen已將我們的研究朝著生成多樣化、交互式和可導航世界的方向推進了一步,但當前模型依然存在一些我們正在努力解決的局限性。例如,未來版本的WorldGen將能夠生成更大的空間并降低生成延遲。3D內容的創作復雜、耗時,而且坦率地說,對許多人來說門檻很高。WorldGen展現了在各行業節省大量時間和成本的潛力,同時有助于3D內容創作的大眾化。這支持了我們在Connect大會分享的愿景:未來,任何人都將能夠構建整個虛擬世界,而無需接觸一行代碼。“