DimensionX是什么

DimensionX是香港科技大學、清華大學和生數科技共同推出的框架,能從單張圖片生成高逼真度的3D和4D場景,基于視頻擴散技術實現對空間和時間維度的精確控制。框架基于ST-Director技術解耦空間和時間因素,支持獨立或組合控制,生成具有動態變化的復雜場景。DimensionX包含軌跡感知機制和身份保持去噪策略,增強場景的一致性和真實感。

DimensionX  港科大、清華和生數科技共同推出的單圖像生成復雜3D、4D場景框架 第1張DimensionX的主要功能3D場景生成:從單張圖片生成新的視角渲染圖,構建3D場景。4D場景生成:從單張圖片生成包含時間和空間變化的動態場景。視頻擴散控制:基于ST-Director技術,實現對視頻擴散過程中空間和時間因素的解耦和精確控制。軌跡感知機制:為3D生成設計,處理復雜的現實世界場景和相機運動。身份保持去噪策略:為4D生成設計,增強場景的一致性,特別是在動態對象和背景之間。DimensionX的技術原理ST-Director(空間和時間導演)維度感知LoRAs:學習從維度變化數據中得到的低秩適應(LoRAs),實現對視頻擴散中空間和時間因素的解耦。S-Director(空間導演):負責生成與空間變化相關的視頻幀,控制相機視角和位置。T-Director(時間導演):負責生成與時間變化相關的視頻幀,控制場景中對象的動態。維度感知分解:定義空間和時間等價關系,創建S-Quotient Space和T-Quotient Space,分別捕獲視頻中的空間軌跡和時間運動軌跡。無需訓練的維度感知組合:基于視頻擴散過程中的去噪機制,開發無需訓練的方法實現混合維度控制,用在去噪過程的不同階段切換S-Director和T-Director生成包含空間和時間變化的視頻。3D場景生成軌跡感知機制:根據不同的相機運動軌跡訓練多種S-Director,覆蓋廣泛的相機運動模式。視頻插值模型:生成高質量的插值視頻,平滑和一致地過渡稀疏視圖。4D場景生成參考視頻latent共享:基于選擇參考幀并共享其latent代碼增強所有空間變體視頻之間的一致性。外觀細化:對每個視點的動態視頻進行細化,增強多視圖視頻之間的穩定性和一致性。DimensionX的項目地址項目官網:chenshuo20.github.io/DimensionXGitHub倉庫:https://github.com/wenqsun/DimensionXarXiv技術論文:https://arxiv.org/pdf/2411.04928DimensionX的應用場景電影和娛樂行業:生成特效場景,減少拍攝成本,創建虛擬背景。游戲開發:生成逼真游戲環境,快速原型設計。虛擬現實(VR)和增強現實(AR):創建動態三維環境,增強用戶體驗。建筑和城市規劃:根據設計圖生成建筑模型,模擬城市規劃。教育和培訓:創建歷史場景可視化,模擬緊急情況。