Flex3D是Meta的GenAI團隊和牛津大學研究團隊推出的創新的兩階段3D生成框架,能基于任意數量的高質量輸入視圖,解決從文本、單張圖片或稀疏視圖圖像生成高質量3D內容的挑戰。第一階段,基于微調的多視圖和視頻擴散模型生成多樣化的候選視圖,用視圖選擇機制確保只有高質量和一致的視圖被用于重建。第二階段,用靈活重建模型(FlexRM),一個基于transformer架構的模型,能處理任意數量的輸入視圖,并直接輸出3D高斯點實現高效、詳細的三維生成。Flex3D在3D重建和生成任務中實現最先進的性能,用戶研究勝率超過92%。
Flex3D的主要功能高質量的3D內容生成:從文本描述、單張圖片或稀疏視圖圖像生成高質量的3D模型。靈活的視圖生成:基于微調的多視圖和視頻擴散模型,生成豐富的候選視圖,捕捉目標3D對象的多個角度。視圖篩選機制:自動篩選出高質量和一致性的視圖,用在后續的3D重建過程。靈活重建模型(FlexRM):基于transformer架構,處理任意數量的輸入視圖,并直接輸出3D高斯點。高效的3D表示:用三平面表示法和3D高斯繪制技術,實現快速且詳細的3D模型生成。魯棒性:模擬不完美的輸入視圖進行訓練,增強模型對輸入噪聲的魯棒性。Flex3D的技術原理多視圖擴散模型:用微調的多視圖圖像擴散模型和視頻擴散模型生成候選視圖池。視圖選擇管道:基于質量評估和特征匹配網絡,篩選出高質量的視圖用在3D重建。變換器架構:FlexRM基于變換器架構,處理不同數量和角度的輸入視圖。三平面表示與3D高斯繪制:結合三平面特征和3D高斯繪制技術,基于MLP解碼三平面特征為3D高斯點。兩階段訓練策略:首先預訓練模型,用真實世界的密集渲染數據進行第二階段訓練。不完美輸入視圖模擬:在訓練過程中模擬不完美的輸入視圖,在3D高斯點上添加噪聲增強模型的魯棒性。Flex3D的項目地址項目官網:junlinhan.github.io/projects/flex3darXiv技術論文:https://arxiv.org/pdf/2410.00890Flex3D的應用場景視頻游戲開發:快速生成游戲資產和環境的3D模型,提高游戲設計和開發的效率。增強現實(AR)和虛擬現實(VR):為AR和VR應用創建逼真的3D對象和場景,提升用戶的沉浸感。電影和動畫制作:在電影和動畫中生成高質量的3D模型,用在角色設計、道具制作和場景構建。機器人技術:生成3D模型以模擬和訓練機器人在復雜環境中的導航和操作能力。電子商務:為在線商店生成產品的3D視圖,提供更豐富的產品展示,幫助消費者做出購買決策。 
