單目深度估計

中國AI網(wǎng) 2025年08月25日)單目深度估計旨在從單張RGB圖像預(yù)測深度圖,并在一系列的領(lǐng)域中存在重要作用,例如AR。目前已有大量基于卷積神經(jīng)網(wǎng)絡(luò)和Transformer的單目深度估計方法,并取得了顯著成果。然而,大多數(shù)現(xiàn)有方法主要側(cè)重于提高精度,往往忽視了在資源受限設(shè)備部署的挑戰(zhàn)。

為解決這一問題,當(dāng)前的輕量級單目深度估計方法主要采用基于CNN的架構(gòu)以降低計算復(fù)雜度。但由于CNN感受野大小固定,模型在優(yōu)化過程中更容易陷入局部最優(yōu)。相比之下,基于Transformer的架構(gòu)利用全局注意力機(jī)制捕獲更廣闊的視野,解決了CNN在建模全局上下文方面的局限,但其二次方的計算成本給輕量化實現(xiàn)帶來了巨大挑戰(zhàn)。因此,探索更高效的輕量級網(wǎng)絡(luò)架構(gòu)以平衡性能和計算開銷至關(guān)重要。圖2(a)和2(b)分別簡要展示了CNN和Transformer的計算流程。

上海交大與電子科大團(tuán)隊提出輕量級單目深度估計算法LMDepth  第1張

近期,基于Mamba的網(wǎng)絡(luò)架構(gòu)在圖像分類、檢測和分割等多種視覺任務(wù)上顯著推動了狀態(tài)空間模的研究。作為一種新興框架,Mamba在SSM中融入了兩項關(guān)鍵改進(jìn):首先,Mamba引入了一種輸入依賴機(jī)制,能夠動態(tài)調(diào)整狀態(tài)空間模型(SSM)的參數(shù)。

其次,它采用了硬件感知設(shè)計,能夠以序列長度的線性復(fù)雜度處理數(shù)據(jù),顯著提升了在現(xiàn)代硬件系統(tǒng)上的計算效率。如圖2(c)所示,機(jī)制使用輸入依賴矩陣來選擇性處理輸入,可以根據(jù)特征的重要性放大或抑制某些輸入特征。處理后的輸入被投影到狀態(tài)空間,用于有效地更新狀態(tài)令牌。總體而言,Mamba兼具高效和高性能的能力,使其成為推進(jìn)視覺相關(guān)任務(wù)的理想選擇。

在一項研究中,上海交通大學(xué)和電子科技大學(xué)團(tuán)隊提出LMDepth,一個用于單目深度估計的基于Mamba的輕量級框架。它能夠以較低的計算成本有效地從單張RGB圖像重建深度信息。具體而言,研究人員設(shè)計了一個改進(jìn)的金字塔空間池化模塊(MPSP),模塊結(jié)合分類感知策略生成深度分類區(qū)間。通過利用這些分類區(qū)間,LMDepth能夠有效適應(yīng)各種深度估計場景。

上海交大與電子科大團(tuán)隊提出輕量級單目深度估計算法LMDepth  第2張

另外,他們提出將多個深度Mamba塊組合為圖像解碼器,通過線性計算實現(xiàn)深度特征與圖像特征的高效融合。通過對概率圖和分類區(qū)間執(zhí)行逐元素乘法,LMDepth能夠在保持低計算開銷的同時預(yù)測高質(zhì)量的深度圖。如圖1所示,在NYUDv2數(shù)據(jù)集上,LMDepth和LMDepth-S在輕量級方法中以更少的參數(shù)量和更低的GFLOPs實現(xiàn)了更高的δ1指標(biāo),展示了其在MDE任務(wù)中卓越的效率與性能權(quán)衡。

上海交大與電子科大團(tuán)隊提出輕量級單目深度估計算法LMDepth  第3張

表I比較了不同輕量級深度估計方法在室內(nèi)數(shù)據(jù)集NYUDv2的性能和計算效率。它突顯了LMDepth在保持低計算開銷的同時,在低分辨率和高分辨率設(shè)置下均實現(xiàn)高精度深度重建的能力。

團(tuán)隊總結(jié)出幾個關(guān)鍵觀察結(jié)果:

(1) LMDepth模型在所有評估指標(biāo)(包括δ1、δ2和RMS)上均取得最佳性能。在低分辨率(240 × 320)下,LMDepth達(dá)到δ1 = 0.833 和 REL = 0.134;在高分辨率(480 × 640)下,性能進(jìn)一步提升至δ1 = 0.854 和 REL = 0.123,優(yōu)于其他方法。

(2) LMDepth在保持低參數(shù)量的同時顯著降低了FLOPs。對于低分辨率輸入,Base模型僅需0.72 GFLOPs,而輕量級的-S模型進(jìn)一步降至0.59 GFLOPs,精度損失極小。在高分辨率下,Base模型僅需2.77 GFLOPs即可實現(xiàn)優(yōu)異性能,遠(yuǎn)低于GuideDepth(5.72 GFLOPs)等方法。整體效率表明,LMDepth在計算復(fù)雜度和深度精度之間實現(xiàn)了更優(yōu)的權(quán)衡,這對于在嵌入式系統(tǒng)上實時部署至關(guān)重要。

上海交大與電子科大團(tuán)隊提出輕量級單目深度估計算法LMDepth  第4張

表II展示了在室外數(shù)據(jù)集KITTI 各種輕量級深度估計方法的比較,突顯了LMDepth方法的性能和計算效率。所提出方案在所有評估指標(biāo)上均取得最佳結(jié)果。在低分辨率(192 × 620)下,LMDepth達(dá)到δ1 = 0.908 和 REL = 0.089,優(yōu)于其他模型。在高分辨率(384 × 1260)下,LMDepth進(jìn)一步將結(jié)果提升至δ1 = 0.926 和 REL = 0.079,在準(zhǔn)確性和效率上都明顯超越了競爭對手。

在計算效率方面,LMDepth所需的FLOPs顯著少于競爭方法。對于低分辨率輸入,Base模型僅消耗1.08 GFLOPs,而輕量級-S版本進(jìn)一步降至0.82 GFLOPs,精度損失極小。在高分辨率下,Base模型僅需4.05 GFLOPs即可實現(xiàn)優(yōu)異性能,遠(yuǎn)低于需要16.75 GFLOPs的GuideDepth等方法。這種高精度與低計算開銷的結(jié)合使LMDepth成為實際部署的理想選擇。

上海交大與電子科大團(tuán)隊提出輕量級單目深度估計算法LMDepth  第5張

圖6展示了來自不同方法在NYUDv2數(shù)據(jù)集上的室內(nèi)外場景定性深度估計結(jié)果。如圖所示,所提出方法始終能提供更準(zhǔn)確、視覺上更一致的深度估計,其預(yù)測結(jié)果在廣泛的現(xiàn)實環(huán)境中與ground truth高度吻合。特別地,所提出方法在處理具有挑戰(zhàn)性的場景(如低紋理區(qū)域和復(fù)雜室內(nèi)環(huán)境)時表現(xiàn)出色,而FastDepth和TuMDE等方法在這些情況下難以保持準(zhǔn)確性。

另外,所提出方法在室外場景中的卓越性能,以及捕獲細(xì)粒度深度變化的能力,突顯了其在不同環(huán)境下的魯棒性。視覺對比表明,所提出方法不僅提高了整體深度精度,還保留了深度圖中的精細(xì)細(xì)節(jié),特別是在具有細(xì)微深度過渡的區(qū)域,而其他模型未能捕獲到這種復(fù)雜變化。這有力證明了這一方法在實際深度估計任務(wù)中的有效性和泛化能力。

上海交大與電子科大團(tuán)隊提出輕量級單目深度估計算法LMDepth  第6張

表III通過在解碼器的深度Mamba塊中替換為基于Transformer和基于CNN的解碼器,評估了所提出的VMamba模塊的有效性。結(jié)果突顯了VMamba在不同數(shù)據(jù)集上在準(zhǔn)確性和計算效率方面的優(yōu)越性。例如,在NYUDv2數(shù)據(jù)集上,VMamba以δ1精度0.830和RMS誤差0.472取得了最佳性能。

值得注意的是,VMamba的參數(shù)數(shù)量(2.9M)與基于CNN的解碼器相當(dāng),其FLOPs(0.73G)僅略高于CNN的0.69G,但顯著低于基于Transformer的解碼器(需要2.8G FLOPs)。這表明VMamba能夠比CNN更有效地捕獲全局上下文,同時保持遠(yuǎn)低于Transformer(因其注意力機(jī)制導(dǎo)致二次方復(fù)雜度)的計算成本。所述發(fā)現(xiàn)驗證了VMamba在平衡準(zhǔn)確性和效率方面的有效性,使其成為室內(nèi)外數(shù)據(jù)集輕量級單目深度估計的穩(wěn)健選擇。

上海交大與電子科大團(tuán)隊提出輕量級單目深度估計算法LMDepth  第7張

圖7比較了MPSP模塊中不同投影特征數(shù)量和2層/4層池化下的精度和FLOPs。它揭示出隨著投影特征數(shù)量增加(藍(lán)線表示),F(xiàn)LOPs也隨之增加。而精度(紅線表示)最初隨復(fù)雜度增加而提升,但最終趨于平穩(wěn)甚至下降。研究人員選擇精度最高的模型作為LMDepth,并選擇梯度變化最大點對應(yīng)的模型作為LMDepth-S。

相關(guān)論文:LMDepth: Lightweight Mamba-based Monocular Depth Estimation for Real-World Deployment

https://arxiv.org/pdf/2505.00980

總的來說,LMDepth是一個構(gòu)建在基于Mamba框架上的輕量級單目深度估計網(wǎng)絡(luò),旨在以低計算開銷實現(xiàn)高精度深度估計。LMDepth集成了新穎組件,如改進(jìn)的金字塔空間池化模塊和深度Mamba塊,以高效提取全局上下文并融合圖像與深度特征。在基準(zhǔn)數(shù)據(jù)集(如NYUDv2, KITTI)上的評估表明,LMDepth的性能優(yōu)于最先進(jìn)的輕量級方法,以顯著更少的參數(shù)量和FLOPs(浮點運算次數(shù))實現(xiàn)了具有競爭力的精度。此外,我們在嵌入式平臺上結(jié)合INT8量化部署了LMDepth,驗證了其在現(xiàn)實邊緣應(yīng)用中的實用價值。其跨數(shù)據(jù)集的泛化能力進(jìn)一步證明了其魯棒性,使其能夠適應(yīng)資源受限的平臺。這項工作為輕量級深度估計設(shè)立了新標(biāo)桿,并突顯了Mamba在更廣泛視覺任務(wù)中的潛力。