Depth Anything 3(DA3)是字節(jié)跳動Seed團隊推出的視覺空間重建模型,通過單一Transformer架構實現(xiàn)從任意視角的視覺輸入中恢復三維空間幾何結構。模型采用“深度-射線”表征法,無需復雜多任務訓練,簡化了模型設計。Depth Anything 3在相機姿態(tài)精度和幾何重建精度上超越此前的主流模型,同時保持高效的推理速度。模型適用于自動駕駛、機器人導航、虛擬現(xiàn)實等領域,為視覺空間重建提供了新的高效解決方案。
Depth Anything 3的主要功能多視角空間重建:Depth Anything 3(DA3)能從任意數(shù)量的視覺輸入(如單張圖片、多視角圖像或視頻流)中重建出三維空間結構。相機姿態(tài)估計:模型能準確估計輸入圖像的相機姿態(tài)(包括位置和方向),在沒有已知相機參數(shù)的情況下能實現(xiàn)。單目深度估計:模型在單目深度估計任務上表現(xiàn)出色,能從單張圖像中預測出像素級的深度信息,為三維場景理解提供基礎支持。新視角合成:通過與3D高斯渲染技術結合,模型能生成從未知視角觀察的高質量圖像,適用虛擬現(xiàn)實和增強現(xiàn)實中的視角渲染任務。高效推理與部署:模型的簡潔架構設計使其在推理速度和資源消耗上具有顯著優(yōu)勢,能快速處理大規(guī)模場景,適用移動端和嵌入式設備的部署。Depth Anything 3的技術原理單一Transformer架構:采用單一的Transformer模型(如DINOv2)作為基礎架構,無需復雜的定制化設計。Transformer的自注意力機制能夠靈活處理任意數(shù)量的輸入視圖,動態(tài)交換跨視圖信息,實現(xiàn)高效的全局空間建模。深度-射線表征法:模型提出一種“深度-射線”表征法,通過預測深度圖和射線圖來完整描述三維空間。深度圖提供像素到相機的距離,射線圖描述像素在三維空間中的投影方向。表征方式自然解耦了空間幾何與相機運動,簡化了模型輸出,同時提高了精度和效率。輸入自適應的跨視圖自注意力機制:引入輸入自適應的跨視圖自注意力機制,通過動態(tài)重排輸入視圖的token,實現(xiàn)高效的跨視圖信息交換。這種機制使模型能靈活處理從單目到多視圖的各種輸入場景。雙DPT頭設計:為聯(lián)合預測深度和射線圖,DA3 設計了雙DPT頭結構。兩個預測頭共享特征處理模塊,在最終融合階段分別優(yōu)化深度和射線圖的輸出,增強兩個任務之間的交互和一致性。教師-學生訓練范式:采用教師-學生訓練范式,通過在合成數(shù)據(jù)上訓練的教師模型生成高質量的偽標簽,為學生模型提供更準確的監(jiān)督。?一步完成高精度輸出:通過一次前饋能生成高精度的深度和射線圖,無需傳統(tǒng)方法中的多次迭代優(yōu)化。這種設計顯著提升了推理速度,簡化了訓練和部署流程,同時確保三維重建的精確性和高效性。Depth Anything 3的項目地址項目官網(wǎng):https://depth-anything-3.github.io/GitHub倉庫:https://github.com/ByteDance-Seed/depth-anything-3arXiv技術論文:https://arxiv.org/pdf/2511.10647在線體驗Demo:https://huggingface.co/spaces/depth-anything/depth-anything-3Depth Anything 3的應用場景自動駕駛:DA3 能從車輛攝像頭拍攝的多視角圖像中快速重建三維環(huán)境,幫助自動駕駛系統(tǒng)更準確地感知周圍物體的距離和位置,提升決策的可靠性和安全性。機器人導航:通過實時重建環(huán)境的三維結構,DA3 能為機器人提供精確的地形和障礙物信息,支持其在復雜環(huán)境中進行高效導航和路徑規(guī)劃。虛擬現(xiàn)實(VR)和增強現(xiàn)實(AR):將現(xiàn)實場景快速轉換為高精度的三維模型,用于虛擬現(xiàn)實中的場景重建或增強現(xiàn)實中的虛擬物體融合,提升用戶的沉浸感。建筑測繪與設計:從建筑場景的多視角圖像中重建出詳細的三維點云,為建筑測繪、室內設計和虛擬建筑漫游提供高效的數(shù)據(jù)支持。文化遺產(chǎn)保護:用 DA3 重建歷史建筑或文物的三維結構,便于進行數(shù)字化保護、修復研究及虛擬展示,幫助文化遺產(chǎn)的傳承和推廣。 
