Depth Pro是蘋果公司開發的一種先進的單目深度估計模型,能從單個2D圖像快速生成高分辨率的3D深度圖。模型不僅速度快,只需0.3秒,而且提供度量級別的深度信息,生成的深度圖具有真實的世界尺度。Depth Pro不依賴相機的內參數,如焦距,具有很強的通用性。Depth Pro在邊界細節的捕捉上表現出色,能清晰地描繪出頭發、植被等細微結構。Depth Pro能零樣本學習(zero-shot learning),在沒有特定領域數據訓練的情況下,能做出準確的預測。使Depth Pro在增強現實、3D重建和圖像編輯等多個領域都有廣泛的應用潛力。
Depth Pro的主要功能零樣本度量深度估計:Depth Pro在沒有相機內參數(如焦距)的情況下,從單個2D圖像生成具有絕對尺度的度量深度圖。高分辨率輸出:模型能生成高達2.25百萬像素的深度圖,提供豐富的細節。快速處理:在標準GPU上,Depth Pro在0.3秒內生成深度圖,適合實時應用。細節捕捉:特別擅長捕捉細微的結構,如頭發、植被等,提高邊界的清晰度。Depth Pro的技術原理多尺度視覺變換器(ViT):Depth Pro基于一個高效的多尺度ViT架構,捕捉全局圖像上下文的同時,精確地識別高分辨率下的精細結構。混合訓練協議:結合真實和合成數據集進行訓練,實現高精度的度量和細致的邊界追蹤。專門的邊界精度度量:開發新的度量標準,基于高質量的摳圖數據集量化評估深度圖中邊界追蹤的準確性。焦距估計:Depth Pro從單張圖像中估計焦距,在零樣本焦距估計領域處于領先地位。訓練策略:采用一種兩階段的訓練策略,第一階段旨在學習跨領域的魯棒特征,第二階段專注于銳化邊界并揭示預測深度圖中的細微細節。Depth Pro的項目地址GitHub倉庫:https://github.com/apple/ml-depth-proarXiv技術論文:https://arxiv.org/pdf/2410.02073v1Depth Pro的應用場景增強現實(AR):在AR應用中,Depth Pro精確地將虛擬對象放置在現實世界中的合適位置,提供更加真實和沉浸式的用戶體驗。3D重建:基于Depth Pro生成的深度圖,從單張2D圖片中重建出3D模型,對于建筑、文物保護和游戲設計等領域非常有用。圖像編輯:在圖像編輯軟件中,Depth Pro幫助用戶更好地理解圖像的深度信息,進行更精細的編輯,如模擬景深效果、圖像分割和對象摳圖。機器人導航:在機器人視覺系統中,Depth Pro提供精確的深度信息,幫助機器人更好地理解周圍環境,實現更精確的路徑規劃和避障。自動駕駛:在自動駕駛技術中,Depth Pro實時生成周圍環境的深度圖,幫助車輛更好地理解在道路上的位置和周圍物體的距離。虛擬現實(VR):在VR應用中,Depth Pro創建更加真實的虛擬環境,提供更加自然的交互體驗。 
