混元3D世界模型 1.0

中國AI網(wǎng) 2025年07月28日)在日前舉行的2025世界人工智能大會騰訊論壇中,騰訊正式發(fā)布了混元3D世界模型 1.0,并宣布全面開源。從秒級生成單個3D資產(chǎn),到一鍵打造可漫游的3D世界,這個開源可沉浸漫游、可交互、可仿真的世界生成模型將為VR等領(lǐng)域帶來全新的可能性。

騰訊指出,即便是無建模經(jīng)驗的普通用戶,通過混元 3D 創(chuàng)作引擎,僅需一句話或者一張圖即可快速生成360度沉浸式視覺空間,而生成的場景可無縫導(dǎo)入Vision Pro等頭顯設(shè)備,帶來沉浸式體驗。

騰訊發(fā)布混元3D世界模型1.0,支持文字圖片生成可交互3D場景  第1張

過去需要專業(yè)建模團隊數(shù)周才能搭建的3D虛擬世界,現(xiàn)在利用混元3D世界模型 1.0,只需一句文字或一張圖片,幾分鐘內(nèi)即可生成。

騰訊表示:“這是業(yè)界首個開源可沉浸漫游、可交互、可仿真的世界生成模型,為游戲開發(fā)、VR、數(shù)字內(nèi)容創(chuàng)作等領(lǐng)域帶來了全新的可能性。除3D世界模型外,騰訊混元還披露了包括端側(cè)混合推理語言模型、多模態(tài)理解模型、游戲視覺模型等在內(nèi)的一系列開源計劃。作為此次發(fā)布的亮點之一,騰訊混元3D世界模型1.0融合了全景視覺生成與分層3D重建技術(shù),同時支持文字和圖片輸入,實現(xiàn)了高質(zhì)量、風(fēng)格多樣的可漫游3D場景生成。”

混元3D世界模型1.0的核心同時在于其創(chuàng)新的「語意層次化3D場景表征及生成算法」。所述算法將復(fù)雜3D世界解構(gòu)為不同語意層級,實現(xiàn)前景與背景、地面與天空的智能分離,不僅生成視覺效果逼真的整體場景,而且能輸出標準化的3D Mesh資產(chǎn),兼容Unity、Unreal Engine、Blender等主流工具。用戶可對場景內(nèi)元素進行獨立編輯或物理仿真,無縫銜接AIGC技術(shù)與傳統(tǒng)CG工作流。與全球領(lǐng)先的開源模型相比,

團隊指出,混元3D世界模型1.0在文生世界、圖生世界的美學(xué)質(zhì)量和指令遵循能力等關(guān)鍵維度均全面超越當(dāng)前SOTA的開源模型。騰訊混元正逐步構(gòu)建完善的3D內(nèi)容生成生態(tài)。混元旗艦?zāi)P蚑urboS自年初發(fā)布后,保持著每月一個版本的快速迭代,在代碼、理科能力和復(fù)雜指令遵循方面都有明顯提升,在全球大模型權(quán)威排行榜上穩(wěn)居前列。

混元TurboS創(chuàng)新采用了前沿的混合線性注意力機制與MoE模型架構(gòu),是大模型研發(fā)前沿分支的重要代表,這也是業(yè)界首個基于混合線性注意力機制落地的超大規(guī)模MoE模型。

基于TurboS基座,混元T1進一步提升了推理能力,混元T1綜合能力國內(nèi)領(lǐng)先,在項目級代碼生成、高難度數(shù)學(xué)推理、文本寫作等方面都展現(xiàn)出不錯的效果。

端到端語音模型混元Voice、多模態(tài)理解模型混元Vision基于混元大語言模型基座打造,繼承了出色的理解、認知和推理能力。在多模態(tài)理解上,今年連續(xù)發(fā)布多款模型,在LMArena Vision全球大模型權(quán)威榜單中獲得國內(nèi)榜首。

除本次發(fā)布即開源的混元 3D世界模型 1.0,混元還將在月底開源一系列小尺寸模型,包含0.5B、1.8B、4B、7B混合推理模型,更輕量、好部署。

更多信息請訪問這個頁面。