書生·物華2.0(3DTopia 2.0)是由上海人工智能實驗室與南洋理工大學聯合開發的三維物體生成大模型。模型采用創新的原語(primitive-based)三維表示方法PrimX,能將形狀、紋理和材質信息編碼為緊湊的張量格式,實現高分辨率幾何圖形的建模。3DTopia 2.0基于Diffusion Transformer框架,支持從文本或圖像輸入高效生成具有物理基礎渲染(PBR)特性的高質量三維資產。模型代碼已開源,提供免費商用授權,有潛力革新游戲、影視、建筑和設計等行業的三維內容創作流程。
書生·物華2.0的主要功能多模態輸入生成三維物體:能根據文本描述或圖像輸入,快速生成對應的三維模型。高效率的生成過程:模型能在五秒內完成從輸入到三維模型的轉換,大幅提高創作效率。高質量和精細紋理:生成的三維物體具有平滑的幾何形狀和空間變化的紋理和材質,接近真實物理材質感。直接應用于游戲引擎和設計軟件:生成的三維模型可以直接用于游戲引擎和工業設計軟件,無需額外處理。支持高分辨率幾何圖形:基于PrimX表示法,能建模高分辨率的三維幾何圖形。書生·物華2.0的技術原理PrimX表示法:一種新穎的基于原語的三維表示方法,將三維物體的形狀、反照率(albedo)、材質信息編碼到一個緊湊的張量格式中。每個原語都是一個小體素,通過其三維位置、全局縮放因子和對應的空間變化的有效載荷(包括SDF、RGB和材質信息)來參數化。原始補丁壓縮:使用三維變分自編碼器(VAE)對每個原語的空間信息進行壓縮,得到潛在的原語標記。過程采用了3D卷積層,將原語的有效載荷從高維空間壓縮到低維潛在空間,為后續的生成模型提供了高效的輸入。潛在原語擴散(Latent Primitive Diffusion):基于Diffusion Transformer(DiT)框架,模型學習了如何從隨機噪聲中逐步去除噪聲,生成符合輸入條件的潛在原語標記。過程模擬了物理過程中的擴散和去噪,能生成具有高分辨率幾何圖形和PBR材質的三維物體。可微分渲染:PrimX表示法支持可微分渲染,模型可以直接從二維圖像數據中學習,提高了模型從現有圖像資源中學習的能力。書生·物華2.0的項目地址Github倉庫:https://github.com/3DTopia/3DTopia-XLarXiv技術論文:https://arxiv.org/pdf/2409.12957書生·物華2.0的應用場景游戲開發:在游戲設計中,可以快速生成各種三維游戲資產,如角色、道具、環境元素等,提高游戲開發的效率和豐富性。電影和動畫制作:用于創建電影或動畫中的三維場景和角色模型,減少手工建模的時間和成本,同時提供更多的創意自由度。虛擬現實(VR)和增強現實(AR):為虛擬現實和增強現實應用生成逼真的三維環境和對象,提升用戶體驗。建筑和城市規劃:在建筑設計和城市規劃中,快速生成三維建筑模型和城市景觀,幫助設計師和規劃師進行方案推敲和效果展示。 
