一種基于超表面的神經深度成像解決方案

中國AI網 2025年07月02日)深度成像是虛擬現實/增強現實等廣泛應用的基礎組成。傳統而言,深度攝像頭依賴于飛行時間傳感器或多鏡頭系統來實現物理深度測量。然而,它們經常面臨笨重的形狀參數和不精確近似之間的權衡,限制了對空間受限場景的適用性。受納米光學新進展的啟發,紐約大學和哥倫比亞大學團隊提出了Nano-3D,一種基于超表面的神經深度成像解決方案。

Nano-3D將定制的700 nm厚的TiO2超表面與多模塊深度神經網絡集成在一起,從單眼超表面偏振圖像中提取精確的度量深度信息。團隊通過模擬實驗和物理實驗證明了所提出方案的有效性,并希望通過新穎的計算方法來將未來的圖形系統與新興的納米材料技術連接起來。

紐約大學與哥倫比亞大學聯合研發超表面神經深度成像系統Nano-3D  第1張

從物理環境中準確捕獲度量深度信息是一系列應用的基本要求,例如虛擬現實和增強現實。然而,傳統的2D攝像頭配備了平面光電傳感器,如互補金屬氧化物半導體(CMOS),在記錄過程中不能保留深度信息。所以,深度傳感通常依賴于精度較低的飛行時間傳感器,或會導致笨重設計的多鏡頭光學。

超表面是新興的納米技術,它從根本上克服了傳統折射光學的局限性。采用潔凈室平面制造技術,可以從高折射率介質材料薄膜制取超表面。它由二維亞波長光學散射體陣列組成,每個散射體都有精心設計的幾何形狀,可修改光的局部相位、振幅和偏振狀態。所以,二維陣列可以共同將光波的等相波前塑造成任何所需的形狀,并賦予波前的任何振幅和偏振剖面。

超緊湊顯示器在超光學設計方面取得了令人興奮的進展,而基于學習的方法進一步實現了具有超表面的高保真2D RGB成像。近來的研究同樣顯示了利用超表面進行深度傳感的潛力。然而,目前的解決方案僅適用于簡單、平坦和孤立的目標,而且由于計算復雜性和模糊性,需要依賴于嚴格的模式匹配。據悉,目前沒有現有的方法允許適用于復雜現實世界應用的逐像素度量深度成像。

所以,紐約大學和哥倫比亞大學團隊提出了Nano-3D,一種基于超表面,單目和逐像素的神經深度成像解決方案。Nano-3D利用直徑為3毫米,厚度為0.0007毫米的超表面來實現高度量深度預測精度。除了其超緊湊的足跡,Nano-3D避免了在多鏡頭攝像頭中常見的由遮擋引起錯誤。

為了實現這一點,研究人員開發了一個集成的傳感計算框架。具體來說,他們設計并制造了一種基于二氧化鈦的超表面,并為入射的X和y偏振光波引入了兩種不同的相位輪廓,從而在攝像頭平面形成的一對圖像中編碼場景的深度信息。然后,由多模塊深度神經網絡處理x和y極化對,以解碼逐像素的度量空間深度。

硬件和神經網絡之間的差距則通過硬件對齊的光波傳播模擬器彌合。其中,模擬器生成10,000個偏振深度圖像的數據集,以方便模型訓練。

團隊通過模擬實驗和物理實驗驗證了Nano-3D的有效性。結果表明,與現有的基于學習的深度估計方法和商用深度攝像頭相比,該方法具有更好的深度估計精度和魯棒性。這些觀察結果表明,當與物理信息計算模型配對時,超表面技術作為高分辨率、超緊湊的3D成像傳感器,并可用于下一代設備,包括虛擬現實/增強現實頭顯。

紐約大學與哥倫比亞大學聯合研發超表面神經深度成像系統Nano-3D  第2張

當然,研究人員指出,神經網絡模型是建立在極化圖像對的特征空間之上。然而,缺乏可識別特征的環境會降低提取器的性能,以及深度預測精度。團隊設想,多尺度圖像表示可以提高我們對低特征區域的深度預測。他們的探索重點是選擇最合適的深度范圍,亦即超表面PSF對深度變化有明顯的響應。這個深度范圍同樣納入到神經網絡訓練過程中。未來,研究人員計劃通過擴大支持的深度范圍,以增加戶外應用的深度傳感范圍。

另外,整體計算目前需要大約4秒的端到端時間來預測度量深度圖。盡管深度解碼器????實現實時性能(3 ms),但PSF移位提取模塊????需要大量的高分辨率特征匹配計算。正如消融研究所示,只有深度解碼器的模型的精度降低版本可以實時執行。在未來,團隊計劃探索加速PSF移位提取,以實現實時性能和高精度。

相關論文:Nano-3D: Metasurface-Based Neural Depth Imaging

https://arxiv.org/pdf/2503.15770

總的來說,Nano-3D是一種由TiO2超表面、光波模擬器和神經網絡模型實現的單鏡頭單眼3D成像系統。憑借超緊湊的足跡,Nano3D在模擬和物理深度傳感任務中都表現出高精度和魯棒性。團隊相信這項研究將為計算機圖形學社區在集成微制造設計元表面、新興機器學習技術和光學模擬方面的未來合作鋪平道路。