新穎的神經隱式表面表示方法
(中國AI網 2025年08月15日)神經隱式表面表示技術對于增強現實/虛擬現實等領域的技術進步十分重要。這類技術能夠將場景中物體的表面建模為一個連續函數,并已經取得了顯著進展,尤其是在相對于經典的3D表面重建方法(例如使用體素或點云的方法)時。然而,相關方法在處理具有多樣且復雜表面的場景時存在困難,主要是因為它們使用單一的編碼器網絡來建模任何給定場景,而網絡需要同時捕獲場景中從低頻到高頻的所有表面信息。
為了克服這一挑戰,日本三菱團隊在一項研究中提出了一種新穎的神經隱式表面表示方法FreBIS。FreBIS的工作原理是根據表面的頻率將場景分層為多個頻率層級,每個層級(或一組層級)由一個專用的編碼器進行編碼。另外,FreBIS通過一種新穎的冗余感知加權模塊來促進編碼特征之間的互異性,從而鼓勵編碼器捕獲互補信息。
在具有挑戰性的BlendedMVS數據集進行的實證評估表明,將現成的神經表面重建方法中的標準編碼器替換為所提出的頻率分層編碼器,能帶來顯著的改進。相關改進在重建的3D表面質量以及從任何視角進行渲染的保真度上均顯而易見。

盡管一張圖片勝過千言萬語,但2D圖像理解方法會遺漏關鍵細節,包括深度線索和被遮擋的結構。這推動了對從圖像重建完整3D表面的技術研究。3D表面重建方法在增強現實和虛擬現實等廣泛應用領域大顯身手,可幫助用戶輕松創建3D內容。
傳統的3D場景重建方法利用顯式表示,如體素和點云,其重建網格的分辨率由體素或3D點的粒度決定,限制了重建質量。神經隱式表面表示方法通過學習連續函數(包括有符號距離函數和占用)來建模3D表面,從而克服了這一挑戰。這些隱式表示能夠以無限分辨率編碼3D幾何體,并降低內存需求,從而實現從2D圖像進行高保真3D表面重建。
先前關于神經隱式表面表示及其變體的研究可以重建高細節的3D表面。然而,它們同時表示復雜表面的正確形狀并捕獲其精細細節的能力有限。這主要是因為它們采用單一的編碼器網絡,試圖同時捕獲場景中存在的所有不同表面頻率(可能從極低到極高)。
在一項研究中,日本三菱團隊提出Frequency-Based Stratification for Neural Implicit Surface Representation (FreBIS) ,一種新穎的神經隱式表面表示方法。在所提出方法中,多個編碼器網絡專門用于編碼不同的頻帶,使得每個編碼器都能捕獲場景的互補信息,從而允許FreBIS能夠有效地同時學習從低頻到高頻的信息。
在實踐中,FreBIS采用三個編碼器,分別致力于從場景中捕獲低頻、中頻和高頻帶的信息(如圖1(a)所示)。信息隨后由一個單一的解碼器網絡進行融合和解碼,以估算SDF值和一個編碼顏色信息的RGB特征向量。因此,對應于不同頻帶的特征可以從三個不同的編碼器導出,而非采用統一的潛在特征編碼。
為了有效結合不同編碼器學習到的不同信息,FreBIS引入了一個新穎的冗余感知加權模塊(如圖1(b)所示)。給定不同的特征編碼,模塊為每個編碼估算歸一化的重要性分數,并將其用作權重來組合這些編碼,從而得到一個統一的表示。隨后,解碼器模塊解碼該統一表示,以預測對應于場景中某個3D點的SDF值和RGB特征。FreBIS使得重建包含各種細節層次的3D場景的高質量表面成為可能。另外,它提供了一種靈活的機制,可將分層編碼器與任何現成的解碼器主干網絡結合使用。
在具有挑戰性的BlendedMVS數據集上的實證評估表明,這種基于頻率分層的策略改進了3D表面的重建,同時更好地保留了從任何給定視角進行渲染的保真度。

表1總結了所提出方法與VolSDF和Scaled-up VolSDF的定量比較結果。除了紋理較簡單、細節較少的Bread場景外,FreBIS在數據集所有場景上都取得了最高的PSNR和SSIM分數以及最低的LPIPS分數,在整體評估上比Scaled-up VolSDF基線在SSIM上提升了高達2%。Doll、Bull和Robot場景的渲染圖像定性比較如圖4所示。

如圖所示,FreBIS顯著提高了渲染質量,尤其是物體的精細細節。重建網格的定性比較如圖5所示。特別地,FreBIS重建的表面具有更高的保真度,能更好地保留細節,例如:Doll衣服上的條紋、Bull的馬鞍、Robot的槍和臉。另外,可以注意到,VolSDF和Scaled-up VolSDF不恰當地將Doll的眼球重建為凹面,而FreBIS的重建效果更好。可以看到,FreBIS在場景渲染和表面重建質量方面都優于VolSDF和Scaled-up VolSDF。這些結果證明了所提出方法的有效性,并表明性能的提升不能簡單地歸因于參數數量的增加。
為了驗證每個區域使用了適當的頻帶以及編碼器學習了互補特征,團隊可視化了每個頻帶的、具有冗余感知的加權特征(F · diag(w))的范數,以及為每個頻帶獲得的網格質量。
各頻帶加權特征范數:圖6展示了Bull場景的重建網格,其中頂點顏色表示加權特征的范數。在這個可視化中,低、中、高頻特征分別映射到紅、綠、藍通道。請注意,范數被縮放到 [0.4, 1.0] 以增強可視性。可以看到高頻信息(藍色)在具有更精細細節的區域(例如裝飾性雕刻)更占主導,而低頻信息(紅色)主要用于細節缺失的未觀察區域和插值區域。所提出的編碼器成功地區分了光滑和粗糙的表面區域,并用不同的頻帶對其進行建模。

對于各頻域表面重建,為檢驗每個編碼器是否學習了互補特征,研究人員獨立解碼每個頻率編碼器的輸出并可視化結果。圖7a, 7b, 7c 分別展示了從 Bull 場景的低頻(fL)、中頻(fM)、高頻(fH)特征向量重建的網格。如圖7所示,低頻網格很好地捕獲了場景的全局結構,中頻網格獲得了物體的大致形狀和一些細節,而高頻網格則捕獲了精細細節。相關結果表明編碼器成功學習了互補的、依賴于頻率的特征。
對于冗余感知加權模塊的消融,為評估冗余感知加權模塊的效果,取不同編碼器特征的平均值來代替應用冗余感知加權。如表3所示,Scaled-up VolSDF和不使用冗余感知加權的版本均比所提出的FreBIS表現差,從而證明了模塊的有效性。
團隊同時構建了模型變體,為編碼器不均勻地分配頻率層級(總頻率層級數 N 設為 6)。表2顯示了此設置下不同配置的定量結果。盡管最優的頻域分配似乎因場景而異,但均勻分布((NL, NM, NH) = (2, 2, 2))在各種場景中表現最為穩定。
相關論文:FreBIS: Frequency-Based Stratification for Neural Implicit Surface Representations
https://arxiv.org/pdf/2504.20222
總的來說,FreBIS是一種新穎的神經隱式表面表示方法。FreBIS根據表面頻率將場景分層為多個頻率層級,并利用一種新穎的冗余感知加權模塊,通過促進編碼特征之間的互異性來有效捕獲互補信息。實證結果表明,將FreBIS編碼器與VolSDF解碼器結合,提高了重建網格的質量以及基于視角的表面渲染質量。
展望未來,團隊計劃在其他數據集和主干網絡上評估FreBIS。將FreBIS與對象組合框架(如ObjectSDF和RICO)相結合,應能重建包含多個物體的更復雜場景,從而可用于更高保真度的復雜3D模擬以及AR/VR的3D內容生成。

