SAM 3D 是 Meta 推出的先進 3D 生成模型,包含 SAM 3D Objects 和 SAM 3D Body 兩個子模型。SAM 3D Objects 能從單張圖像重建物體和場景的 3D 模型,支持多視角一致性和復雜遮擋處理;SAM 3D Body 專注于人體姿態、骨骼和網格的高精度恢復,適用虛擬人和動作捕捉等場景。模型通過大規模數據訓練和多任務學習,具備高泛化能力和魯棒性,可應用在數字孿生、機器人感知、AR/VR 內容生成等多個領域,為 3D 視覺應用提供強大的基礎能力。
SAM 3D的主要功能SAM 3D Objects從單張圖像重建 3D 物體和場景:能從單張二維圖像中預測物體的三維結構,包括深度估計、網格重建、材質與表面外觀估計。多視角一致性:生成的 3D 模型在不同視角下保持一致,適合多視角查看和交互。復雜場景處理:支持復雜遮擋、非正面視角和弱光場景下的重建,具有強大的泛化能力。應用場景:適用數字孿生、機器人感知、室內外場景重建、自動駕駛環境理解等。SAM 3D Body人體姿態與網格恢復:支持從單張圖像恢復人體的三維姿態、骨骼結構和可動畫網格,支持高精度的手部、腳部及肢體關鍵點恢復。高魯棒性:能處理非標準姿勢、遮擋和部分出畫的情況,適合復雜的實際場景。應用場景:適用虛擬人建模、動作捕捉、數字資產制作、游戲開發等。SAM 3D的技術原理多頭預測結構:SAM 3D 通過多頭預測結構,同時輸出深度、法線、遮罩和網格等多模態信息,提升重建的準確性和完整性,在處理復雜場景和遮擋時表現出色。大規模數據訓練與弱監督學習:用大規模數據引擎,結合人類標注和 AI 生成數據,SAM 3D 采用弱監督學習,減少對高質量標注的依賴,增強模型的泛化能力。Transformer 編碼器 解碼器架構:SAM 3D Body 用 Transformer 架構,支持基于提示的預測(如掩碼和關鍵點),實現高精度人體姿態和網格重建,適應復雜姿勢和遮擋。創新數據標注引擎:通過人類標注員評估模型生成的 3D 數據,SAM 3D 的數據引擎高效標注大規模真實世界圖像,彌補 3D 數據稀缺的不足。優化與高效推理:SAM 3D 采用擴散模型等技術優化推理速度,實現低顯存占用和快速重建,適合在常見硬件上實時運行。SAM 3D的項目地址項目官網:https://ai.meta.com/sam3d/GitHub倉庫:SAM 3D Body:https://github.com/facebookresearch/sam-3d-bodySAM 3D Objects:https://github.com/facebookresearch/sam-3d-objects技術報告:https://ai.meta.com/research/publications/sam-3d-body-robust-full-body-human-mesh-recovery/SAM 3D的應用場景室內外場景重建:從單張照片重建建筑、室內布局等場景的 3D 模型,用于虛擬設計、建筑可視化和數字孿生。自動駕駛環境理解:幫助自動駕駛系統快速理解復雜環境的 3D 結構,提升環境感知能力。單圖人體恢復:從單張照片生成高精度的人體姿態和網格,用于虛擬角色建模。低成本動作捕捉:無需復雜設備,通過單張圖像實現動作捕捉,適用影視、游戲等前期制作。3D 模型生成:從單張圖像快速生成可在 AR/VR 中自由查看的 3D 模型,提升內容創作效率。虛擬場景構建:結合其他模型(如 SAM),構建逼真的虛擬場景,用于沉浸式體驗。 
