研究人員對過去五年(2020-2025)的NeRF論文進行了全面調查

中國AI網 2025年08月19日)2020年3月,神經輻射場NeRF的出現徹底改變了計算機視覺,允許隱式的、基于神經網絡的場景表示和新穎的視圖合成。如今,NeRF模型已在虛擬現實/增強現實等領域得到了廣泛的應用。在一份名為《NeRF: Neural Radiance Field in 3D Vision: A Comprehensive Review》綜述論文中,研究人員對過去五年(2020-2025)的NeRF論文進行了全面調查。

團隊介紹了NeRF的理論及其通過可微體渲染的訓練,同時對經典NeRF、隱式和混合神經表示以及神經場模型的性能和速度進行了基準比較,并概述了關鍵數據集:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第1張

神經輻射場(Neural Radiance Fields/NeRF) 使用可微分體渲染來學習一種隱式的神經場景表示。它使用多層感知器MLP來將3D場景的幾何形狀和光照作為神經場存儲起來。這種學習到的表示隨后可用于從用戶指定的、新穎的視角生成場景的2D圖像。Mildenhall等人于ECCV 2020首次提出了NeRF。自那以后,它在視覺質量方面達到了最先進水平,產生了令人印象深刻的演示,并啟發了一系列后續工作。從2020年起,NeRF模型及后續基于神經場的體渲染模型已在照片編輯、3D表面提取、人體化身建模、大型/城市級3D表示與視圖合成、以及3D物體生成等領域得到應用。

2023年,高斯飛濺(Gaussian Splatting)作為一種替代性的新視角合成框架,在諸多新視角合成基準測試以及3D視覺應用中超越了NeRF及其相關方法。因此,大量的研究興趣轉向了高斯飛濺。盡管如此,自2023年以來,對NeRF及NeRF相關的神經渲染研究依然在持續。

NeRF模型相對于其他經典的新視角合成和場景表示方法具有重要優勢:

NeRF模型是自監督的。 它們僅需場景的多視圖圖像即可訓練。與許多其他3D場景的神經表示不同,NeRF模型僅需圖像和姿態即可學習場景,不需要3D或深度監督。姿態可以使用運動恢復結構工具包(如COLMAP )來估計。NeRF模型具有照片級真實感。 與經典技術、早期的新視角合成方法以及神經3D表示方法相比,原始的NeRF模型在視覺質量方面收斂到更好的結果,而更近期的模型表現更佳。

與基于高斯飛濺的方法相比(后者在新視角合成及相關研究中已很大程度上超越基于NeRF的方法),NeRF方法存在以下劣勢:

高斯飛濺方法比NeRF方法更具照片級真實感,通常能收斂到能生成更高質量圖像的表示。高斯飛濺方法訓練速度更快。在相同硬件,使用相同的訓練圖像,完全隱式的NeRF方法收斂所需時間長2到3個數量級。一旦訓練完成,高斯飛濺方法的圖像渲染速度比基于隱式NeRF的方法快幾個數量級。高斯飛濺方法使用基于3D點的表示,可以輕松轉換為表示3D場景的常見數據結構——3D點云。另一方面,從典型的NeRF方法中提取顯式的3D表示則更為困難。

然而,與高斯飛濺方法相比,NeRF方法具有以下優勢:

隱式或混合的NeRF方法在訓練后存儲需求較低,通常在訓練期間內存需求較低。基于神經網絡3D表示的NeRF方法更適用于需要或偏好隱式表示的3D視覺流程。

在這份綜述論文中,研究人員組織撰寫了一篇聚焦于NeRF方法和類NeRF神經渲染方法的綜述論文。

1. 背景

2020年12月,Dellaert和Yen-Chen發表了一篇簡潔的NeRF綜述預印本,包含約50篇NeRF出版物/預印本。然而,它僅有八頁,且不包含詳細描述。另外,它僅包含2020年和2021年初的預印本,遺漏了2021年下半年及以后發表的多篇有影響力的NeRF論文。受其啟發,并以其作為綜述的起點,團隊撰寫了這份綜述論文。

1.1 NeRF理論

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第2張

神經輻射場NeRF由Mildenhall等人于2020年首次提出,主要用于新視角合成。NeRF實現了復雜場景的高度照片級真實感視圖合成,并在引起了廣泛關注。在其基本形式中,NeRF模型將三維場景表示為由神經網絡近似的輻射場。輻射場描述了場景中每個點以及每個觀察方向的顏色和體密度。這可以表示為:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第3張

其中 ?? = (x, y, z) 是場景內坐標,(θ, ?) 代表方位角和極角視角,?? = (r, g, b) 表示顏色,σ 表示體密度。這個5D函數由一個或多個多層感知器MLP近似,有時記作 FΘ。兩個視角角 (θ, ?) 通常由笛卡爾單位向量 ?? = (d?, d?, d_z) 表示。通過限制體積密度 σ(即場景內容)的預測獨立于視角方向,而允許顏色 ?? 依賴于視角方向和場景內坐標,這種神經網絡表示約束為多視角一致。

在基線NeRF模型中,這是通過設計一個兩階段的MLP來實現:第一階段以 ?? 為輸入,輸出 σ 和一個高維特征向量;在第二階段,特征向量與觀察方向 ?? 拼接后,傳遞給一個額外的MLP,MLP輸出 ??。我們注意到Mildenhall等人認為 σ MLP 和 ?? MLP 是同一個神經網絡的兩個分支,但許多后續作者認為它們是兩個獨立的MLP網絡。

廣義上講,使用訓練好的NeRF模型進行新視角合成的過程如下:

對于待合成圖像中的每個像素,向場景中投射camera光線,并生成一組采樣點(見圖1(a))。

對于每個采樣點,使用觀察方向和采樣位置,通過NeRF MLP計算局部顏色和密度(如圖1(b)所示)。

使用體渲染從這些顏色和密度生成圖像(見圖1(c))。

給定被渲染場景的體積密度和顏色函數,使用體渲染來獲取任意攝像頭光線 ??(t) = ?? + t??(camera位置為 ??,觀察方向為 ??)的顏色 C(??):

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第4張

其中 σ(??(t)) 和 ??(??(t), ??) 表示沿觀察方向為 ?? 的camera光線上點 ??(t) 處的體積密度和顏色,dt 表示光線在每個積分步驟中行進的微分距離。

T(t) 是累積透射率,表示光線從 t? 行進到 t 而未被阻擋的概率,由下式給出:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第5張

通過追蹤穿過待合成圖像每個像素的camera光線 C(??) 來渲染新視角。這個積分可以通過數值計算。原始實現和大多數后續方法使用了非確定性分層采樣方法,即將光線劃分為 N 個等間距的區間(bin),然后從每個區間中均勻抽取一個樣本。公式(2)可以近似為:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第6張

δ? 是從樣本 i 到樣本 i+1 的距離。(σ?, ???) 是由NeRF MLP計算出的沿光線樣本點 i 評估的密度和顏色。α? 是樣本點 i 處通過alpha合成得到的透明度/不透明度,由下式給出:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第7張

可以使用累積透射率計算光線的預期深度:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第8張

這可以類似于公式(4)近似公式(2)和(3)的方式進行近似:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第9張

特定深度正則化方法使用預期深度將密度限制在場景表面的類delta函數處,或強制深度平滑性。

對于每個像素,使用平方誤差光度損失來優化MLP參數。在整個圖像上,損失由下式給出:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第10張

其中 C_gt(??) 是與光線 ?? 相關聯的訓練圖像像素的真實顏色,R 是與待合成圖像相關聯的光線批次。

NeRF模型通常采用位置編碼,Mildenhall等人證明這極大地提高了渲染視圖中的精細細節重建。在原始實現中,將以下位置編碼 γ 應用于場景坐標 ??(歸一化到[-1,1])和觀察方向單位向量 ?? 的每個分量:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第11張

其中N是用戶確定的編碼維度參數,在原文中對于 ?? 設為 N=10,對于 ?? 設為 N=4。然而,現代研究人員已經嘗試了其他形式的位置編碼(包括可訓練的、參數化的、積分的和分層的變體)并取得了很好的結果。

命名約定: 存在三種類型的3D表示:隱式(implicit)、混合(hybrid)和顯式(explicit)。在基線NeRF中,密度場和顏色場完全由MLP表示;這被認為是隱式場景表示。神經顏色場和密度場一起稱為神經輻射場。

1.2 數據集

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第12張

NeRF模型通常按場景訓練,需要相對密集且姿態相對多樣的圖像。盡管有的NeRF模型設計為可以從稀疏輸入視圖或未標定姿態的圖像進行訓練,但camera姿態通常可以使用現有的運動恢復結構(SfM)庫來提取。

原始的NeRF論文提出了一個使用Blender創建的合成數據集,在后續工作中通常被稱為NeRF合成數據集或NeRF數據集。虛擬camera具有相同的焦距,并放置在距離物體相同距離的位置。數據集由八個場景組成,包含八個不同的物體。其中六個場景的視點從上半球采樣;另外兩個場景的視點從整個球體采樣。物體包括“熱狗”、“材料”、“無花果”、“樂高”、“麥克風”、“鼓”、“椅子”和“船”。圖2展示了NeRF論文結果的比較可視化。圖像以800×800像素渲染,其中100個視圖用于訓練,200個視圖用于測試。這通常是NeRF研究人員考慮的第一個數據集,因為場景是有界的,聚焦于單個物體,并且場景常用模型的基準測試結果很容易找到。

LLFF數據集包含24個使用手持手機攝像頭捕獲的真實場景。視圖面向中心物體,呈前向。每個場景包含20-30張圖像。使用COLMAP包計算圖像的姿態。數據集的使用與Realistic Synthetic數據集相當;場景對于任何特定的NeRF模型來說挑戰性都不太大,并且數據集基準測試完善,提供了與已知方法的現成比較。

DTU數據集是一個多視圖立體數據集,使用搭載攝像頭和結構光掃描儀的六軸工業機器人捕獲。機器人提供精確的攝像頭定位。內參和外參均使用MATLAB校準工具箱仔細校準。光掃描儀提供參考密集點云,作為真實3D幾何。然而,由于自遮擋,某些場景中某些區域的掃描是不完整的。原始論文的數據集包含80個場景,每個場景包含在圍繞中心物體半徑為50cm的球面上采樣的49個視圖。其中21個場景,在半徑65cm處額外采樣了15個攝像頭位置,總計64個視圖。整個數據集同時包括另外44個旋轉90度掃描四次的場景。使用16個LED改變場景照明,有七種不同的光照條件。圖像分辨率為1600×1200。這個數據集與前兩個數據集的不同之處在于其更高的分辨率以及精心校準的camera姿運動和姿態。

ScanNet數據集是一個大規模真實RGB-D多模態數據集,包含超過250萬張室內場景視圖,帶有標注的camera姿態、參考3D表面、語義標簽和CAD模型。深度幀以640×480像素捕獲,RGB圖像以1296×968像素捕獲。掃描使用連接到手持設備(如iPhone和iPad)的RGB-D傳感器進行。姿態使用BundleFusion估計并對生成網格進行幾何對齊。數據集豐富的語義標簽對于利用語義信息的模型非常有用,例如用于場景編輯、場景分割和語義視圖合成。

ShapeNet數據集是一個簡單的大規模合成3D數據集,包含分類為3135個類別的3D CAD模型。最常用的子集是12個常見物體類別。當基于物體的語義標簽是特定NeRF模型的重要組成部分時,有時會使用這個數據集。通常使用Blender等軟件從ShapeNet CAD模型渲染具有已知姿態的訓練視圖。

Tanks and Temples數據集是一個基于視頻的3D重建數據集。它包含14個場景,包括“坦克”和“火車”等單個物體,以及“禮堂”和“博物館”等大型室內場景。真實3D數據使用高質量工業激光掃描儀捕獲。真實點云用于通過對應點的最小二乘優化來估計攝像頭姿態。數據集包含大型場景,其中一些在室外,對某些NeRF模型構成挑戰。室外場景適合希望處理無界背景的模型。其真實點云也可用于某些數據融合方法或測試深度重建。

Matterport-3D數據集是一個真實數據集,包含90個建筑尺度場景的194,400張全局配準RGB-D圖像中的10,800個全景視圖。提供深度、語義和實例標注。每個全景圖片的18個視點提供1280×1024分辨率的彩色和深度圖像。90棟建筑中的每一棟平均包含2437平方米的表面積??偣蔡峁┝?0,811個物體實例標簽,這些標簽被映射到40個物體類別。

Replica數據集是一個真實的室內數據集,包含18個場景和35個使用定制RGB-D設備(帶紅外投影儀)捕獲的室內房間。某些3D特征(如小孔等精細網格細節)經過手動修復,反射表面也進行了手動分配。語義標注(88個類別)分兩步進行:一次在2D,一次在3D。提供基于類別和基于實例的語義標簽。

表 I: 在合成NeRF數據集選定的NeRF模型比較

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第13張

KITTI是一個著名的城市尺度2D-3D計算機視覺數據集套件,創建用于訓練和評估自動駕駛的視覺算法。套件包含用于立體3D語義和2D語義分割、光流、里程計、2D-3D物體檢測、跟蹤、車道檢測以及深度預測/補全的帶標簽數據集。這些數據基于在德國卡爾斯魯厄使用車載設置(配備GPS和慣性測量單元數據)記錄的Velodyne LiDAR掃描儀和多個攝像頭捕獲的原始LiDAR和視頻數據創建。深度預測/補全數據集是目前最大的,包含超過93,000個深度圖及相應的RGB圖像和原始LiDAR掃描。然而,由于相對于NeRF專用數據集其攝像頭覆蓋相對稀疏,這個數據集對NeRF訓練構成挑戰,在設計模型時需要稀疏視圖的考量。所述套件最近的擴展KITTI-360包含一個新視角合成基準,其中列出了一系列NeRF模型。

Waymo開放數據集是最近發布的KITTI替代方案。覆蓋72平方公里,這個數據集基于在美國舊金山灣區、山景城和鳳凰城使用車載設置(配備五個LiDAR傳感器和五個高分辨率針孔攝像頭)捕獲的點云和視頻數據創建。除了匹配的點云和視頻數據外,這個數據集同時包含用于2D和3D物體檢測和跟蹤的標注標簽。數據集包含1150個獨立場景(相比之下KITTI為22個),并具有更高的LiDAR和攝像頭分辨率。其物體標注也廣泛了兩個數量級(8萬 vs 1200萬)。

Nerfies和HyperNerf數據集是專注于人臉的單一攝像頭數據集,其運動由相對于主體移動安裝在桿子上的兩個攝像頭產生。前者包含五個靜止不動的人類主體,以及另外四個包含移動人類主體、一只狗和兩個移動物體的場景。后者專注于拓撲變化,包括諸如人類主體睜眼閉眼、張嘴閉嘴、3D打印小雞玩具以及掃帚變形等場景。

ZJU-MOCap LightStage數據集[61]是一個多視圖(20+個攝像頭)運動捕捉數據集,包含9個由類似運動的動作組成的動態人體序列。視頻使用21個同步攝像頭捕獲,序列長度在60到300幀之間。

NeuMan數據集包含6個視頻,每個時長10到20秒,由跟隨行走中人類主體(執行額外簡單動作如旋轉或揮手)的移動手機攝像頭捕獲。

CMU Panoptic數據集是一個大型多視圖、多主體數據集,包含參與社交互動的人群。數據集包含65個序列,150萬個帶標簽的骨架。傳感器系統由480個VGA視圖(640×480)、超過30個高清(HD, 1920×1080)視圖和10個RGB-D傳感器組成。場景標有個體主體和社交群體語義、3D身體姿態、3D面部關鍵點以及帶有說話者ID的文字記錄。

1.3 質量評估指標

標準設置下通過NeRF進行的新視角合成使用視覺質量評估指標進行基準測試。指標嘗試評估單個圖像的質量,可以基于(全參考)或不基于(無參考)真實圖像。峰值信噪比(Peak Signal to Noise Ratio, PSNR)、結構相似性指數(Structural Similarity Index Measure, SSIM)、學習感知圖像塊相似度(Learned Perceptual Image Patch Similarity, LPIPS)是迄今為止NeRF文獻中最常用的指標。

PSNR↑ 是一個無參考質量評估指標:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第14張

其中 MAX(I) 是圖像中像素可能的最大值(對于8位整數為255),MSE(I) 是在所有顏色通道上計算的逐像素均方誤差。PSNR常用于信號處理且易于理解。

SSIM↑ 是一個全參考質量評估指標。對于單個圖像塊(patch),其公式為:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第15張

其中 C? = (K?L)2, L 是像素的動態范圍(對于8位整數為255),K?=0.01, K?=0.03 是原作者選擇的常數。我們注意到原始論文中有一個更通用的SSIM形式(公式12)。局部統計量 μ’s, σ’s 在一個 11×11 的圓對稱高斯加權窗口內計算,權重 w? 的標準差為1.5并歸一化為1。

LPIPS↓是一個全參考質量評估指標,它使用學習到的卷積特征。分數由多層特征圖的加權逐像素MSE給出:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第16張

其中 x???, y??? 是參考圖像和待評估圖像在像素寬度 w、像素高度 h 和層 l 處的特征。H? 和 W? 是相應層特征圖的高度和寬度。原始的LPIPS論文使用SqueezeNet、VGG和AlexNet作為特征提取主干網絡。

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第17張

2. 高斯飛濺之前的神經輻射場

以基于方法的分類法組織選定的高斯飛濺之前的NeRF及相關論文,并保留一個單獨的部分用于基于應用的分類。表I中提供了一個NeRF合成數據集的基準測試,比較了時代最具影響力的(純)新視角合成聚焦的NeRF及相關工作。

2.1 合成視圖和學習幾何質量的改進

圖像質量是視圖合成的主要基準,許多后續的純NeRF研究模型專注于提高視圖合成質量。下面重點介紹旨在增強NeRF視圖合成和3D場景表示的光度和幾何方面的重要模型。

2.1.1 更好的視圖合成

Mip-NeRF(2021年3月)使用錐體追蹤近似代替了標準NeRF(2020年3月)體渲染的光追。這是通過引入集成位置編碼(Integrated Positional Encoding, IPE)(圖3)實現的。示意性地,為了生成單個像素,從攝像頭中心沿觀察方向通過像素中心投射一個錐體。錐體用一個多元高斯分布近似,其均值向量和協方差矩陣根據相應幾何推導得出,從而得到集成位置編碼。其公式為:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第18張

其中 ????, ???? 是提升到具有 N 級的位置編碼基上的多元高斯的均值和方差。由此產生的Mip-NeRF模型本質上是多尺度的,并能自動執行抗鋸齒。它優于基線NeRF,尤其是在較低分辨率下。Mip-NeRF 36是Mip-NeRF的一個極具影響力的擴展,適用于無界場景。關鍵的技術改進包括一個由NeRF MLP而非直接由圖像監督的proposal MLP。它P僅預測體密度,用于指導采樣間隔。另外,專門為Mip-NeRF中的高斯設計了一種新穎的場景參數化。最后,引入了一種新的正則化方法來防止漂浮的幾何偽影和背景塌陷。

Ref-NeRF(2021年12月)建立在mip-NeRF之上,旨在更好地建模反射表面。Ref-NeRF基于局部法向量反射的觀察方向參數化了NeRF輻射。它將密度MLP修改為一個無方向的MLP,而MLP不僅輸出密度和方向相關MLP的輸入特征向量,同時輸出漫反射顏色、鏡面反射顏色、粗略度和表面法線。Ref-NeRF在反射表面上表現尤其出色,能夠精確建模鏡面反射和高光(圖5)。

Ray Prior NeRF (RapNeRF)(2022年5月)提出了一種專為視圖外推量身定制的NeRF模型,與擅長插值的標準NeRF形成對比。RapNeRF引入了隨機光線投射,其中對于擊中表面點 ?? = ?? + t_z ?? 的訓練光線,從 ?? 向具有均勻采樣角度擾動的新原點 ??’ 投射一條反向光線。另外,RapNeRF采用了光線圖集,具體是通過從預訓練的NeRF中提取粗略的3D網格,并將訓練光線方向映射到其頂點之上。訓練從一個基線NeRF開始以恢復粗略網格。隨后,RRC和RA以預定概率增強訓練光線。在合成NeRF數據集和MobileObject數據集的評估表明,相關增強提高了視圖合成質量,并可適應其他NeRF框架。

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第19張

2.1.2 深度監督與點云

通過使用從LiDAR或SfM獲取的點云對預期深度(公式6)進行監督,模型收斂更快,可收斂到更高的最終質量,并且比基線NeRF模型需要更少的訓練視圖。許多這些模型同時是為少樣本/稀疏視圖NeRF構建的。

Deng等人(2021年7月)使用來自點云的深度監督,方法名為Depth-Supervised NeRF/DS-NeRF。除了通過體渲染和光度損失進行顏色監督外,DS-NeRF同時使用通過COLMAP 從訓練圖像中提取的稀疏點云進行深度監督。深度建模為圍繞稀疏點云記錄的深度的正態分布。添加了一個KL散度項以最小化光線分布與該噪點深度分布之間的散度。

與DS-NeRF同時期的是Roessle等人的研究(2021年4月)。其中,他們使用COLMAP提取稀疏點云,并通過深度補全網絡處理以生成深度和不確定性圖。除了標準的體渲染損失外,他們同時引入了基于預測深度和不確定性的深度損失。模型在ScanNet和Matterport3D的RGB-D數據進行訓練。

NerfingMVS(2021年9月)使用多視圖圖像,專注于深度重建。在NerfingMVS中,使用COLMAP提取稀疏深度先驗作為點云。然后將其輸入到一個針對場景微調的預訓練單目深度網絡中,以提取深度圖先驗。深度圖先驗通過僅在適當深度處允許采樣點來指導體采樣。在體渲染過程中,光線被劃分為 N 個相等的區間,光線邊界使用深度先驗進行鉗制。

PointNeRF(2022年1月使用特征點云作為體渲染之前的中間步驟。一個預訓練的3D CNN從訓練視圖創建的成本體積生成深度和表面概率 γ,產生密集點云。一個預訓練的2D CNN從訓練視圖提取圖像特征。特征填充點云,為每個點 p? 分配一個表面概率 γ?。給定輸入位置和觀察方向,一個類似PointNet的網絡回歸局部密度和顏色,然后用于體渲染。使用點云特征還允許模型跳過空白空間,導致速度比基線NeRF快3倍。

2.1.3 其他幾何改進

SNeS(2022年6月)通過部分對稱和部分隱藏的場景物體上的軟對稱約束學習可能的對稱性來改進幾何。

S3-NeRF(2022年10月)使用陰影和著色線索推斷場景幾何,并支持單圖像NeRF訓練,專注于幾何恢復。S3-NeRF采用基于UNISURF的占據場3D表示代替密度,修改了基于物理的渲染方程,并使用基于占據的陰影計算作為關鍵的實現差異。所述方法在合成和真實世界數據集上,從單張圖像實現了出色的深度圖和表面法線重建。

2.2 訓練和推理速度的改進

在Mildenhall等人的原始實現中,使用分層渲染來提高計算效率。兩個網絡表示場景:一個粗略網絡和一個精細網絡。粗略網絡的輸出指導精細網絡的采樣點選擇,防止在精細尺度進行密集采樣。在接下來的兩年中,大多數加速NeRF訓練和推理的努力大致分為兩類:

烘焙模型:第一類模型訓練、預計算并將NeRF MLP評估存儲到更易訪問的數據結構中。這顯著提高了推理速度,但不影響訓練時間。非烘焙模型:第二類包括各種創新的非烘焙模型。一種常見的方法是通過混合表示從MLP參數中學習單獨的場景特征。這使得MLP更小,以增加內存為代價提高了訓練和推理速度。為了進一步推動這方面,有的方法完全省略了神經網絡,使用純顯式的場景表示。盡管嚴格來說不是NeRF模型,但由于它們與NeRF的相關性和相似性,將它們包括在此。

其他技術包括光線終止(當累積透射率接近零時停止采樣)、空間跳躍、以及如原始NeRF論文中那樣使用粗略和精細MLP進行分層采樣。相關方法通常與每篇論文的創新結合,以進一步提高訓練和推理速度。

混合和顯式場景表示方法與烘焙方法密切相關,因為場景特征直接在可訪問的數據結構中進行優化。然而,在2020年至2022年間,烘焙與非烘焙的區分非常流行。

2.2.1 烘焙

Hedman等人(2021年7月)的一個模型將預計算的NeRF存儲在稀疏體素網格上。所述方法稱為Sparse Neural Voxel Grid/SNeRG,在一個稀疏體素網格上存儲預計算的漫反射顏色、密度和特征向量,這個過程有時稱為“烘焙”。在評估期間,一個MLP產生鏡面反射顏色,顏色與沿光線的鏡面反射顏色的alpha合成相結合,產生最終的像素顏色。所述方法比原始NeRF實現快約3000倍,速度與PlenOctree相當。

同時,Yu等人(2021年3月)的PlenOctree方法實現了比原始NeRF實現快約3000倍的推理時間。作者訓練了一個球諧NeRF(NeRF-SH),它預測顏色函數的球諧系數,而不是直接預測顏色值。他們構建了一個由MLP顏色導出的預計算球諧(SH)系數的八叉樹。在八叉樹構建過程中,場景體素化,并剔除低透射率的體素。這個過程可以應用于標準NeRF模型,通過執行球諧分量的蒙特卡洛估計。PlenOctree可以使用初始訓練圖像通過相對于NeRF訓練快速的微調程序進一步優化。值得注意的是,高斯飛濺實現中的球諧顏色直接改編自PlenOctree。

在FastNeRF(2021年3月)中,Garbin等人將顏色函數 ?? 分解為兩個MLP輸出的內積:一個位置相關的MLP(也預測密度 σ)和一個方向相關的MLP。這種分解使FastNeRF能夠有效地在密集場景網格上緩存顏色和密度評估,實現超過3000倍的推理加速。所述方法同時利用了硬件加速的光線追蹤,跳過空白空間并在透射飽和度達到時終止光線。

Reiser等人(2021年5月)通過引入KiloNeRF改進了基線NeRF,它將場景劃分為數千個單元,并為每個單元訓練獨立的MLP來預測顏色和密度。小型MLP使用從大型預訓練教師MLP的知識蒸餾進行訓練,這個過程與烘焙密切相關。所述方法同時采用了早期光線終止和空白空間跳躍。僅這兩項技術就將基線NeRF的渲染速度提高了71倍。進一步將基線MLP拆分成數千個較小的MLP,使渲染速度提高了36倍,從而實現了總體2000倍的加速。

Sun等人(2021年11月)的一篇論文同樣探討了這個主題。作者直接優化了密度的標量體素網格。然而,他們沒有使用球諧系數,而是使用了12維和24維特征以及一個小的淺層解碼MLP(采用混合表示方法)。作者使用了類似于原始NeRF論文中粗略-精細采樣的采樣策略,首先訓練一個粗略體素網格,然后基于粗略網格的幾何形狀訓練一個精細體素網格。模型命名為Direct Voxel Grid Optimization/DVGO,在合成NeRF數據集僅用15分鐘的訓練就超越了基線NeRF(1-2天的訓練)。

Fourier PlenOctree 方法由Wang等人在2022年2月提出。它專為人類輪廓渲染而設計,利用了領域特定的技術Shape-From-Silhouette。所述方法同時受到可泛化的圖像條件化NeRF的啟發。最初,使用從廣義NeRF預測的稀疏視圖和Shape-From-Silhouette構建一個粗略的視覺外殼。然后在該外殼內部密集采樣顏色和密度,并存儲在粗略的PlenOctree。從PlenOctree中采樣密集視圖,應用透射率閾值化以消除大多數空點。對于剩余的點,生成新的葉子密度和球諧顏色系數,并更新PlenOctree。隨后使用傅里葉變換MLP提取密度和SH顏色系數的傅里葉系數,而系數輸入到離散傅里葉逆變換中以恢復SH系數和密度。

MobileNeRF(2022年6月)框架訓練了一個基于多邊形網格的類NeRF模型,每個網格頂點附加了顏色、特征和不透明度MLP。Alpha值被離散化,特征超采樣以進行抗鋸齒。在渲染期間,具有相關特征和不透明度的網格根據觀察位置進行柵格化,并使用一個小型MLP對每個像素進行著色。所述方法展示的速度比SNeRG快約10倍。

EfficientNeRF(2022年7月)基于PlenOctree,選擇使用球諧函數并將訓練好的場景緩存到樹中。然而,它引入了幾項改進。最重要的是,EfficientNeRF通過使用動量密度體素網格存儲預測密度(通過指數加權平均更新)來提高訓練速度。在粗略采樣階段,網格用于丟棄密度為零的采樣點。在精細采樣階段,同時采用了樞軸系統來加速體渲染。樞軸點定義為滿足 T? α? > ? 的點 ???,其中 ? 是預定義的閾值,T? 和 α? 是公式(4)和(5)中定義的透射率和alpha值。在精細采樣期間,僅考慮樞軸點附近的點。這兩項改進將訓練時間比基線NeRF加快了8倍。然后,作者將訓練好的場景緩存到NeRF樹中,實現了與FastNeRF相當的渲染速度,并比基線NeRF快數千倍。

R2L(2022年3月)通過深度殘差MLP將神經輻射場提煉成神經光場。這種架構在不依賴2D圖像之外數據的情況下提高了渲染效率。通過從預訓練的NeRF中提煉進行訓練,R2L在合成和真實場景中,在視覺質量上超越了NeRF和其他高效合成方法,同時將FLOPs減少了26-35倍,并將掛鐘時間加速了28-31倍。

2.2.2 非烘焙

一個流行的原始NeRF在JAX中的重新實現,稱為JaxNeRF(2020年12月),經常被早期尋求改進訓練和渲染速度的研究用作基準比較。所述模型比NeRF的原始TensorFlow實現稍快,并且更適合分布式計算。

在Neural Sparse Voxel Fields,/NSVF(2020年7月)中,Liu等人開發了一個基于體素的NeRF模型,模型將場景建模為一組由體素包圍的輻射場。特征表示通過插值存儲在體素頂點上的可學習特征獲得,然后由共享的MLP處理,計算 σ 和 ??。NSVF使用基于稀疏體素相交的點采樣進行光線采樣,這比密集采樣或Mildenhall等人的分層兩步方法高效得多。然而,由于在潛在的密集體素網格上存儲特征向量,這種方法內存密集度更高。

AutoInt(2020年12月)近似了體渲染步驟。通過將離散體渲染方程(4)分段分離,他們開發了AutoInt,模型通過其梯度網絡 Ψθ? 訓練MLP Φθ。梯度網絡與積分網絡 Φθ 共享內部參數并用于重組積分網絡。這種方法允許渲染步驟使用少得多的樣本,導致速度比基線NeRF快十倍,而質量僅略有下降。

Light Field Networks/LFNs)(2021年6月)提出了一種新穎的神經表示,將攝像頭光線直接映射到4D光空間中的輻射度,繞過了傳統的體積查詢。這使得實時渲染成為可能,同時顯著減少了內存使用量,并將渲染速度提高了幾個數量級。通過使用6D Plücker坐標參數化光線,LFN支持連續的360°場景表示,并編碼外觀和幾何,從中可以解析地導出稀疏深度圖。盡管缺乏固有的多視圖一致性,LFN通過支持從稀疏2D輸入重建光場的元學習框架解決了這個問題。

Deterministic Integration for Volume Rendering/DIVeR(2021年11月)從NSVF中汲取靈感,通過聯合優化特征體素網格和解碼器MLP,同時應用稀疏正則化和體素剔除。然而,他們創新了體渲染過程,通過在體素網格上執行確定性光線采樣,為每個光線區間(由光線與特定體素的相交定義)產生一個集成特征。然后特征由MLP解碼以產生光線區間的密度和顏色,有效地顛倒了NeRF方法中常見的體積采樣和MLP評估的順序。DIVeR在質量上優于PlenOctrees、FastNeRF和KiloNeRF等方法,且渲染速度相當。

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第20張

Instant-Neural Graphics Primitives/INGP(2022年1月)極大地提高了NeRF模型的訓練和推理速度。作者提出了一種學習的參數化多分辨率哈希編碼,編碼與NeRF模型MLP同時訓練(圖6)。他們同時采用了先進的光線行進技術,包括指數步進、空白空間跳躍和樣本壓實。這種新的位置編碼結合高度優化的MLP實現,顯著加速了訓練和推理,同時提高了所得NeRF模型的場景重建精度。在幾秒鐘的訓練內,所述方法就達到了與之前NeRF模型數小時訓練相當的結果。

2.3 少樣本/稀疏訓練視圖NeRF

基線NeRF需要具有已知攝像頭姿態的密集多視圖圖像來訓練每個場景。基線NeRF的一個常見失敗情況是訓練視圖變化不夠或樣本姿態變化不足。這導致對單個視圖的過擬合和無意義的場景幾何。然而,一個NeRF方法家族利用預訓練的圖像特征提取網絡來大大減少成功進行NeRF訓練所需的樣本數量。有的作者將這個過程稱為“深度圖像特征條件化”。特定方法同樣使用深度/3D幾何監督來達到此效果。相關模型通常比基線NeRF模型具有更低的訓練時間。

在pixelNeRF(2020年12月) 中,Yu等人使用預訓練的卷積神經網絡層(和雙線性插值)來提取圖像特征。然后,將NeRF中使用的攝像頭光線投影到圖像平面上,并為每個查詢點提取圖像特征。這些特征、觀察方向和查詢點隨后被傳遞給NeRF MLP,而MLP產生密度和顏色。Trevithick等人的General Radiance Field/GRF(2020年10月)采用了類似的方法,關鍵區別在于GRF在規范空間中操作,而pixelNeRF在視圖空間中操作。

MVSNeRF(2021年3月)采取了略有不同的方法。它使用預訓練的CNN提取2D圖像特征。這些2D特征通過平面掃描和基于方差的成本映射到3D體素化成本體積。一個預訓練的3D CNN然后產生一個3D神經編碼體積,體積通過插值生成逐點潛碼。在體渲染期間,NeRF MLP使用特征以及點坐標和觀察方向來預測密度和顏色。訓練聯合優化了3D特征體積和NeRF MLP。在DTU數據集上,MVSNeRF在15分鐘內就達到了與基線NeRF數小時訓練相當的結果。

DietNeRF(2021年6月)除了標準的光度損失外,同時引入了基于從Clip-ViT提取的圖像特征的語義一致性損失 L_sc:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第21張

其中 ? 對訓練圖像 I 和渲染圖像 ? 執行Clip-ViT特征提取。對于歸一化的特征向量,這簡化為余弦相似度損失(DietNeRF公式5)。DietNeRF在子采樣的NeRF合成數據集和DTU數據集上進行了基準測試。用于單視圖新穎合成的最佳性能方法是使用DietNeRF的語義一致性損失進行微調的pixelNeRF模型。

Liu等人的Neural Rays/NeuRay方法(2021年7月)同樣使用了成本體積。從所有輸入視圖中,作者使用多視圖立算法估計成本體積(或深度圖)。從中,使用CNN創建特征圖 G。在體渲染期間,從這些特征中提取可見性和局部特征,并使用MLP進行處理以提取顏色和alpha(α)??梢娦杂嬎銥槔鄯e密度函數,表示為sigmoid函數的加權和。

NeuRay對新場景泛化良好,并且可以進一步微調以超越基線NeRF模型的性能。

GeoNeRF(2021年11月)使用預訓練的特征金字塔網絡從每個視圖中提取2D圖像特征。所述方法然后使用平面掃描構建級聯的3D成本體積。從這兩個特征表示中,對于沿光線的 N 個查詢點中的每一個,提取一個視圖無關和多個視圖相關的特征令牌。令牌使用Transformer進行細化。然后,N 個視圖無關令牌通過一個自動編碼器進行細化,編碼器返回沿光線的 N 個密度。N 組視圖相關令牌分別饋送到一個提取顏色的MLP中。作者表明,所有這些網絡都可以進行預訓練,并能很好地泛化到新場景。另外,它們可以按場景進行微調,在DTU、NeRF合成和LLF前向數據集取得了優異的結果,優于pixelNeRF和MVSNeRF等方法。

與GeoNeRF同時期的是LOLNeRF(2021年11月),它能夠單次(single-shot)合成人臉的視圖。它的構建類似于 π-GAN,但使用了生成潛在優化而不是對抗訓練。

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第22張

RegNeRF(2021年12月)旨在解決使用稀疏輸入視圖進行NeRF訓練的問題。與大多數其他方法不同,RegNeRF采用了額外的深度和顏色正則化。深度平滑度鼓勵世界幾何分段平滑,定義為:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第23張

其中 d(????) 指的是從隨機采樣的未觀察視角出發,通過大小為 Patch 的圖像塊中像素 i j 的光線的預期深度。它同樣使用了顏色正則化,通過估計和最大化渲染圖像塊的似然。這是通過在多樣的未標定數據集訓練一個標準化流模型(如RealNVP ),然后估計和最大化渲染圖像塊的對數似然來實現的。設 ? 是一個從圖像塊到 R?(其中 d = Patch × Patch × 3)的學習到的雙射(bijection)。顏色正則化損失定義為:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第24張

其中 P? 是以 ?? 為中心像素的預測RGB顏色塊,-log p_z 是高斯 p_z 的負對數似然(negative log-likelihood)。另外,RegNeRF使用了采樣空間退火,試圖在訓練開始時通過將所有輸入圖像的采樣點范圍限制在定義的小體積內,然后再擴展到整個場景,來修復具有高密度在光線原點處的發散NeRF模式。Mip-NeRF用作這些正則化和采樣技術的骨干NeRF模型。模型在DTU和LLFF 數據集上進行了測試,并優于PixelNeRF、SRF和MVSNeRF等模型。不需要預訓練的RegNeRF,在這些模型(在DTU上預訓練并按場景微調)取得了相當的性能,在稀疏視圖條件下優于Mip-NeRF和DietNeRF(見圖7)。

NeRFusion(2022年3月)同樣從CNN提取的2D圖像特征中提取3D成本體積。然后體積由稀疏3D CNN處理成局部特征體積。所述方法對每一幀執行此步驟,然后使用GRU將這些局部特征體積融合成全局特征體積,而體積用于條件化密度和顏色MLP。NeRFusion在ScanNet、DTU和NeRF合成數據集上優于基線NeRF、NeRFingMVS、MVSNeRF。

AutoRF(2022年4月)專注于無背景物體的新視角合成。給定2D多視圖圖像,使用3D物體檢測算法提取3D邊界框和物體掩碼。邊界框用于定義歸一化物體坐標空間,用于每個物體的體渲染。使用編碼器CNN提取外觀和形狀編碼,其使用方式與GRAF 中相同。除了標準的光度損失外,同時定義了一個額外的占據損失:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第25張

其中 Y 是物體掩碼,W_occ 是前景或背景像素的集合。在測試時,使用相同的損失函數進一步優化形狀編碼、外觀編碼和邊界框。

SinNeRF(2022年4月) 嘗試通過整合多種技術從單張圖像重建NeRF場景。他們使用圖像扭曲和已知的攝像頭內參和姿態為未見視圖創建參考深度以進行深度監督。他們使用帶有CNN判別器的對抗訓練來提供塊級紋理監督。另外,他們使用預訓練的ViT從參考塊和未見塊中提取全局圖像特征,使用L2損失項和全局結構先驗進行比較。SinNeRF在NeRF合成數據集、DTU數據集和LLFF前向數據集上優于DS-NeRF、PixelNeRF和DietNeRF。

作為替代方法,GeoAug(2022年10月)通過使用DSNeRF作為基線并利用深度作為正則化器,渲染(帶扭曲)具有新噪點攝像頭姿態的新訓練圖像來進行數據增強。

2.4 生成式和條件式模型

受生成式2D計算機視覺進展的啟發,生成式NeRF模型根據文本、圖像或潛碼生成3D幾何。這種條件化使得一定程度的場景編輯成為可能。模型大致分為兩類:基于生成對抗網絡的方法和基于擴散的方法。通常,它們利用2D生成模型創建“場景”的圖像,然后用于訓練NeRF模型。在高斯飛濺之前的一個主要挑戰是在保持2D一致性的情況下,生成基于攝像頭姿態的條件化2D圖像。另一個持續存在的問題是multi-face Janus problem,即生成式NeRF在頭部周圍創建具有多個面部的化身。即便在引入高斯飛濺之后,這個Janus問題依然是一個活躍的研究領域。

與后來基于擴散和流匹配的2D圖像生成模型相比,早期NeRF時代的基于GAN的圖像生成以潛碼為條件,并且不容易通過基于文本和圖像的條件化進行控制。

在NeRF-VAE(2021年1月)中,Kosiorek等人提出了一個生成式NeRF模型,模型能很好地泛化到分布外場景,并消除了每個場景從頭訓練的需要。NeRF-VAE中的NeRF渲染器以潛碼為條件,使用Iterative Amortized Inference和ResNet編碼器進行訓練。作者同時引入了一個基于注意力的場景函數(與典型的MLP相對)。當場景視圖數量較少(5-20)時,NeRF-VAE始終優于基線NeRF,但由于場景表達能力較低,當有大量視圖可用時(100+)會被基線NeRF超越。

2.4.1 基于生成對抗網絡(GAN)的方法

對抗訓練通常用于生成式和/或潛碼條件化的NeRF模型。生成對抗網絡于2014年首次開發,這種生成模型采用一個生成器 G和一個判別器 D。生成器試圖“欺騙”判別器,使其圖像與“真實”訓練圖像無法區分。判別器則試圖最大化其分類準確性。這兩個網絡以對抗方式進行訓練,即優化以下minimax損失/價值函數:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第26張

其中生成器基于從某個分布 p(z) 采樣的潛碼 z 生成圖像,判別器將其與訓練圖像 x 進行比較。在基于GAN的生成式NeRF模型中,生成器 G 包含所有新視角合成步驟,被認為是NeRF模型。在這種情況下,生成器除了潛碼外還需要一個輸入姿態。判別器 D 通常是一個圖像分類CNN。GRAF(2020年7月)是第一個以對抗方式訓練的NeRF模型。它為許多后續研究鋪平了道路。基于NeRF的生成器以外觀編碼 ??_a 和形狀編碼 ??_s 為條件,由下式給出:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第27張

在實踐中,形狀編碼(條件化場景密度)與嵌入位置拼接,作為方向無關MLP的輸入。外觀編碼(條件化場景輻射)與嵌入觀察方向拼接,作為方向相關MLP的輸入。根據基線NeRF,通過體積采樣生成圖像。然后使用判別器CNN進行對抗訓練,比較這些圖像。

在GRAF之后的三個月內,Chan等人開發了 π-GAN(2020年12月),它同樣使用GAN方法來訓練條件化NeRF模型。生成器是一個基于SIREN的NeRF體渲染器,在密度和顏色MLP中用正弦激活取代了標準的ReLU激活。π-GAN在標準GAN數據集(上優于GRAF。

EG3D(2021年12月)使用新穎的混合三平面表示,特征存儲在三個軸對齊的平面上,并使用一個小的解碼器MLP在GAN框架中進行神經渲染。GAN框架由姿態條件化的StyleGAN2特征圖生成器(用于三平面)、將三平面特征轉換為低分辨率圖像的NeRF渲染模塊和一個超分辨率模塊組成。超分辨后的圖像隨后饋入StyleGAN2判別器。模型在FFHQ數據集上取得了最先進的結果,生成了人臉的逼真圖像和3D幾何。

StyleNeRF(2022年1月)是一項極具影響力的研究,它通過使用NeRF將3D感知引入StyleGAN圖像合成框架,專注于2D圖像合成。StyleNeRF使用風格碼條件化的NeRF(帶有一個上采樣模塊)作為生成器,一個StyleGAN2判別器,并向StyleGAN優化目標引入了一個新的路徑正則化項。

Pix2NeRF(2022年2月)提出作為一個以對抗方式訓練的NeRF模型,模型可以在給定隨機采樣的潛碼和姿態的情況下生成NeRF渲染的圖像。除了基于 π-GAN的損失(對抗架構的基礎)外,Pix2NeRF損失函數還包括以下內容:

1)重建損失,比較 z_predicted 和 z_sampled 以確保潛在空間的一致性;
2)重建損失,確保圖像重建質量,在 I_real 和 I_reconstructed 之間,其中 I_reconstructed 是由生成器根據編碼器產生的 z_pred, d_pred 對創建的;
3)條件對抗目標,防止模型塌陷到trivial poses(確切表達式見原文)。

2.4.2 聯合優化的Latent Models

這些模型將潛碼作為視圖合成的關鍵方面,但將其與場景模型聯合優化。下面列出的模型不是生成式,而是使用潛碼來解釋場景的各種可變方面。在生成潛在優化(GLO)中,一組隨機采樣的潛碼 {???, …, ??_n}(通常為正態分布)與一組圖像 {I?, …, I_n} 配對。這些潛碼輸入到一個生成器 G,其參數與潛碼使用某個重建損失 L(如 L?)聯合優化。即,優化公式化為:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第28張

其中 ??_i 代表未優化的其他輸入(NeRF中需要,但其他模型不一定需要)。根據GLO作者的說法,這種方法可以視為無判別器的GAN(Discriminator-less GAN)。

應該注意,在2020-2023時期,許多NeRF模型使用潛碼來條件化場景的某些方面,例如NeRF-W中的外觀和瞬態嵌入。這些模型通常使用GLO進行優化。除非潛碼明確用于場景編輯作為論文的核心思想,否則不在這里列出它們。

Edit-NeRF(2021年6月)允許使用來自用戶輸入的圖像條件進行場景編輯。Edit-NeRF的形狀表示由一個類別特定的共享形狀網絡 F_shared 和一個實例特定的形狀網絡 F_inst 組成。F_inst 以 ??_s 為條件,而 F_shared 則否。理論上,F_shared 充當變形場。NeRF編輯表述為一個聯合優化問題,同時優化NeRF網絡參數和潛碼 ??_s, ??_a,使用GLO。他們首先在潛碼上優化NeRF光度損失,然后在MLP權重上優化,最后聯合優化潛碼和權重。

在Edit-NeRF的基礎上創新,CLIP-NeRF(2021年12月)的神經輻射場基于標準的潛在條件化NeRF,即NeRF模型以形狀和外觀潛碼為條件。然而,通過使用對比語言-圖像預訓練(CLIP),CLIP-NeRF可以從用戶輸入的文本或圖像中提取誘導的latent space displacements,方法是使用形狀和外觀映射器網絡。然后,位移可用于根據這些輸入的文本或圖像修改場景的NeRF表示。這一步允許跳過Edit-NeRF中使用的逐次編輯潛碼優化,從而在任務上加速約8-60倍。他們同時使用了一個變形網絡,以幫助基于latent space displacements修改場景。

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第29張

2.4.3 擴散NeRF模型

擴散模型是2022年引起廣泛關注的圖像生成和編輯方法系列,并在高斯飛濺之后很大程度上取代了2D圖像生成的GAN方法。擴散模型使用前向和反向擴散過程進行訓練。前向擴散過程在T個步驟中向某個輸入圖像/特征圖添加噪點。反向過程是生成式的,可用于從高斯噪點創建圖像。擴散模型通過使用特定領域的編碼器允許基于文本和圖像的提示/條件化,從而提供了高度的圖像生成控制。

DreamFusion(2022年9月)提出作為一個文本到3D的擴散NeRF模型。DreamFusion中的NeRF模型使用來自2D擴散模型的圖像從頭開始訓練。對于要生成的每個物體或場景,將文本提示輸入到擴散模型Imagen中,并訓練一個基于mip-NeRF 360的NeRF模型。文本提示允許在擴散圖像生成階段控制主體的視角,某些提示使用關鍵詞如“俯視圖”、“前視圖”和“后視圖”。對NeRF訓練的一個關鍵修改是表面顏色由MLP參數化而不是輻射度。盡管結果令人印象深刻,但Imagen圖像是以64x64分辨率生成的。因此,生成的NeRF模型缺乏生成更精細細節的能力。一些結果如圖8所示。

在Latent-NeRF(2022年11月)中,NeRF模型訓練為輸出64x64x4的潛在特征,Stable Diffusion在其上操作,然后經過解碼器步驟產生512x512x3的RGB圖像。所述方法允許文本引導和形狀引導,既可用于進一步的形狀細化,也可作為嚴格的形狀約束。

在DreamFusion的基礎上,Magic3D(2022年11月)針對由低分辨率擴散圖像引起的問題。作者采用了兩階段粗-細(coarse-fine)方法。在粗略階段,Magic3D使用Instant-NGP作為NeRF模型,使用圖像擴散模型eDiff-I根據文本提示生成的圖像進行訓練。然后,從Instant-NGP提取的粗略幾何被放置在一個網格上,在精細階段使用潛在擴散模型生成的圖像進行優化。作者指出,他們的方法允許基于提示的場景編輯、通過以主體圖像為條件的個性化文本到3D生成,以及風格引導的文本到3D生成。他們對397個提示生成的物體進行的實驗(每個由三名用戶評分)顯示用戶偏好Magic3D勝過DreamFusion。

RealFusion(2023年2月)使用了一些相同的思路,但專注于單次(single-shot)場景學習。基礎擴散模型是Stable Diffusion ,基礎NeRF模型是Instant-NGP。作者使用單圖像文本反演作為替代視圖,通過增強輸入2D圖像并將其與一個新的詞匯標記關聯,以優化擴散損失,確保輻射場表示單視圖攝影中的物體。然后使用NeRF光度損失以coarse-to-fine的方式訓練3D場景。

SSDNeRF(2023年4月)通過單階段3D潛在擴散模型學習可泛化的3D先驗。與許多分別訓練自動編碼器和擴散模型(通常導致噪點潛在表示)的兩階段方法不同,SSDNeRF從多視圖圖像端到端地聯合優化NeRF和擴散組件。即使在稀疏視圖輸入下,該策略也能實現穩健學習。此外,該模型支持靈活的測試時采樣,允許從任意視圖數量進行3D重建。在單物體數據集上的實驗顯示,在生成和重建任務上均表現強勁,向通用3D學習框架邁進了一步。

除了這些生成擴散模型,擴散模型同時用于通過圖像條件化進行單視圖NeRF場景學習(NeuralLift-360(2022年11月),NeRFDi(2022年12月, NerfDiff(2023年2月), PoseDiff(2024年1月)),以及用于幾何正則化(DiffusioNeRF(2023年2月))。

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第30張

2.5 無界場景和場景組合

隨著嘗試在室外場景中使用NeRF模型,產生了將前景與背景(可能包含天空或地平線視圖)分離的需求。這些室外場景在圖像間光照和外觀變化方面也帶來了額外的挑戰。下面介紹的方法使用各種方法處理這個問題,許多方法通過逐圖像外觀編碼來適應潛在條件化。研究領域的某些方法同時執行語義或實例分割,以在3D語義標注中找到應用。

在NeRF in the Wild (NeRF-W) (2020年8月)中,Martin-Brualla等人解決了早期NeRF模型的兩個關鍵問題。同一場景的真實照片可能包含由于光照條件導致的逐圖像外觀變化,以及每張圖像中不同的瞬態物體。密度MLP在場景的所有圖像中保持不變。然而,NeRF-W將他們的顏色MLP以逐圖像外觀嵌入為條件。另外,另一個以逐圖像瞬態嵌入為條件的MLP預測瞬態物體的顏色和密度函數。

Zhang等人開發了NeRF++(2020年10月)模型,模型通過使用一個球體分離場景來適應為無界場景生成新視角。球體內部包含所有前景物體和所有虛擬攝像頭視圖,而背景則在球體外部。然后使用徑向反演對球體外部進行重新參數化。訓練兩個獨立的NeRF模型,一個用于球體內部,一個用于外部。攝像頭光線積分也在兩部分中評估。

GIRAFFE(2020年11月)的構建方法與NeRF-W類似,使用生成潛碼,并分離背景和前景MLP進行場景組合。GIRAFFE基于GRAF,一個用于生成式場景建模的先前模型。該框架為場景中的每個物體分配其自己的神經特征場MLP,MLP產生一個標量密度和一個替代顏色的深度特征向量。MLP具有共享的架構和權重,將形狀和外觀潛在向量以及輸入姿態作為輸入。然后使用密度加權和特征來組合場景。然后使用體渲染從這個3D體積特征場創建一個小型的2D特征圖,特征圖被饋送到一個上采樣CNN中以產生圖像。GIRAFFE使用這個合成圖像和一個2D CNN判別器進行對抗訓練。由此產生的模型具有解耦的潛在空間,允許對場景生成進行精細控制。

Fig-NeRF (2021年4月) 處理場景組合,但專注于物體插值和離屏分割。他們使用兩個獨立的NeRF模型,一個用于前景,一個用于背景。他們的前景模型是可變形Nerfies模型。他們的背景模型是以潛碼為條件的外觀NeRF。他們使用了兩個光度損失,一個用于前景,一個用于背景。Fig-NeRF在ShapeNet、Gelato和Objectron等數據集上實現了良好的離屏分割和物體插值結果。

Yang等人(2021年9月)創建了一個可以編輯場景內物體的組合模型。他們使用基于體素的方法,創建了一個聯合優化MLP參數的特征體素網格。他們使用了兩個不同的NeRF,一個用于物體,一個用于場景,兩者都以插值的體素特征為條件。物體NeRF進一步以一組物體激活潛碼為條件。他們的方法在ScanNet以及帶有實例分割標簽的內部ToyDesk數據集上進行了訓練和評估。他們通過掩碼損失項整合了分割標簽,識別場景中的每個物體。

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第31張

NeRFRen(2021年11月)解決了NeRF視圖合成中反射表面的問題。作者將輻射場分離為兩個分量,透射 (σ_t, ??_t) 和反射 (σ_r, ??_r),最終像素值由下式給出:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第32張

其中 β 是由透射輻射場的幾何形狀給出的反射比例:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第33張

T_{σ_i

t} 由公式(3)給出,α_i 由公式(5)給出。除了標準的光度損失外,作者同時使用了深度平滑損失 L_d(原文公式8)來鼓勵透射輻射場產生正確的幾何形狀。同樣,對反射輻射場使用了雙向深度一致性損失 L_bdc(原文公式10)。NeRFRen能夠在作者的RFFR數據集上渲染反射表面,優于基準方法(如基線NeRF和NerfingMVS)以及消融模型。該方法證明可以支持通過移除反射和替換反射來進行場景編輯。

2.6 姿態估計

NeRF模型需要輸入圖像和攝像頭姿態來訓練。在最初的2020年論文中,未知姿態使用COLMAP庫獲取,該庫在后續許多NeRF模型中也經常使用(當攝像頭姿態未提供時)。通常,構建同時執行姿態估計和基于NeRF的隱式場景表示的模型表述為離線運動恢復結構問題。在這些情況下,通常使用光束法平差來聯合優化姿態和模型。然而,一些方法也將其表述為在線SLAM問題。

iNeRF(2020年12月)將姿態重建表述為一個逆問題。給定一個預訓練的NeRF,使用光度損失8,Yen-Chen等人優化姿態而不是網絡參數。作者使用興趣點檢測器并執行興趣區域采樣。作者同時進行了半監督實驗,他們使用iNeRF姿態估計對未標定姿態的訓練圖像進行標注,以增強NeRF訓練集,并進一步訓練前向NeRF。作者表明,這種半監督將前向NeRF所需的姿態照片減少了25%。

NeRF–(2021年2月)聯合估計NeRF模型參數和攝像頭參數。這使得模型能夠以端到端的方式構建輻射場并合成新視角圖像。NeRF–在視圖合成方面總體上取得了與使用COLMAP的2020年NeRF模型相當的結果。然而,由于姿態初始化的限制,NeRF–最適合前向場景,并且在旋轉運動和物體跟蹤運動方面存在困難。

與NeRF–同時期的是Bundle-Adjusted Neural Radiance Field/BARF(2021年4月),它也聯合估計姿態和神經輻射場的訓練。BARF還使用了coarse-to-fine registration,通過自適應掩蔽位置編碼??傮w而言,BARF在LLFF前向場景數據集(攝像頭姿態未知)的結果比NeRF–平均高出1.49 PSNR(在八個場景上),并且比COLMAP配準的基線NeRF高出0.45 PSNR。BARF和NeRF–都為了簡單起見使用了樸素的密集光線采樣。

Jeong等人引入了一種用于NeRF的自校準聯合優化模型(SCNeRF)(2021年8月)。他們的攝像頭校準模型不僅可以優化未知姿態,還可以優化非線性攝像頭模型(如魚眼鏡頭模型)的攝像頭內參。通過使用curriculum learning,他們逐漸將非線性攝像頭/噪點參數引入聯合優化。這種攝像頭優化模型也是模塊化的,可以輕松地與不同的NeRF模型一起使用。該方法在LLFF場景上優于BARF。

GNeRF(2021年3月)是Meng等人的另一種方法,它將姿態作為生成潛碼。GNeRF首先通過對抗訓練獲得粗略的攝像頭姿態和輻射場。這是通過使用一個生成器來實現的,該生成器接收隨機采樣的姿態并使用NeRF風格的渲染合成視圖。然后,判別器將渲染的視圖與訓練圖像進行比較。一個反演網絡接收生成的圖像并輸出一個姿態,該姿態與采樣的姿態進行比較。這產生了粗略的圖像-姿態配對。然后通過光度損失以混合優化方案聯合優化圖像和姿態。GNeRF在合成NeRF數據集上略微遜色于基于COLMAP的NeRF,但在DTU數據集上優于基于COLMAP的NeRF。

GARF(2022年4月)在NeRF中使用高斯激活作為位置編碼的有效替代方案,并結合光束法平差進行姿態估計。作者表明,GARF可以從未知攝像頭姿態成功恢復場景表示,即使在具有低紋理區域的挑戰性場景中,使其適用于實際應用。

2.7 NeRF和SLAM

Sucar等人引入了第一個基于NeRF的密集在線SLAM模型,名為iMAP(2021年3月)。模型聯合優化攝像頭姿態和隱式場景表示(NeRF模型形式),利用持續的在線學習。他們采用了迭代的兩步方法:跟蹤(相對于NeRF的姿態優化)和建圖(姿態和NeRF模型參數的聯合優化光束法平差)。iMAP通過并行運行更快的跟蹤步驟,實現了接近攝像頭幀率的姿態跟蹤速度。iMAP還通過僅在稀疏且增量選擇的圖像集上進行場景優化來使用關鍵幀選擇。

在iMAP的基礎上,NICE-SLAM(2021年12月)改進了諸如關鍵幀選擇和NeRF架構等各個方面。具體來說,他們使用場景幾何的分層網格表示,能夠填補iMAP在某些場景中重建大型未觀察場景特征(如墻壁和地板)的空白。NICE-SLAM實現了比iMAP更低的姿態估計誤差和更好的場景重建結果。NICE-SLAM使用的FLOPs約為iMAP的四分之一,跟蹤時間為三分之一,建圖時間為一半。

NeRF-SLAM(2022年10月)通過使用Instant-NGP作為其建圖模塊的NeRF模型,并結合最先進的SLAM流程,改進了現有的基于NeRF的SLAM方法,大大超越了之前在Replica數據集上的基準。

NICERSLAM-SLAM(2023年2月)是一個端到端的密集SLAM系統,僅使用RGB輸入執行同時跟蹤和建圖,改進了NICE-SLAM。它引入了基于SDF的分層神經隱式表示,支持詳細的3D幾何和照片級真實感的新視圖合成。該系統利用單目幾何線索、光流和扭曲損失來指導優化,而無需深度監督。此外,它提出了一種局部自適應SDF到密度的轉換,專為室內場景動態設計。

2.8 神經渲染的相關方法

2.8.1 顯式表示和快速的無MLP體渲染

Plenoxel(2021年12月)遵循PlenOctree的腳步,將場景體素化并存儲密度的標量值和方向相關顏色的球諧系數。然而,令人驚訝的是,Plenoxel完全跳過了MLP訓練,而是直接在體素網格上擬合這些特征。他們取得了與NeRF++和JaxNeRF相當的結果,訓練速度快了幾百倍。結果表明,NeRF模型的主要貢獻是在給定逐點密度和顏色的情況下進行新視角的體渲染,而不是密度和顏色MLP本身。HDR-Plenoxels (2022年8月) 通過從低動態范圍圖像學習3D高動態范圍輻射場、場景幾何和各種攝像頭設置,將此想法適應到HDR圖像。

TensoRF(2022年3月)將標量密度和向量特征(可以與球諧系數一起使用,或用于通過MLP解碼的特征)存儲為分解的張量。這些最初表示為秩3張量 T_σ ∈ R

{H×W×D} 和秩4張量 T_c ∈ R^{H×W×D×C},其中 H, W, D 是體素網格的高度、寬度和深度分辨率,C 是通道維度。作者隨后使用了兩種分解方案:規范分解/平行因子分析,將張量分解為純向量外積;和向量矩陣,將張量分解為向量/矩陣外積。這些分解在使用CP時將Plenoxels的內存需求減少了200倍。他們的VM分解在視覺質量方面表現更好,盡管需要內存權衡。訓練速度與Plenoxels相當,比隱式NeRF模型快得多。

Streaming Radiance Fields(2022年10月) 是一種顯式表示方法,專門針對視頻的NeRF訓練,并改進了標準顯式方法。作者采用基于模型差異的壓縮來減少顯式表示的內存需求。該方法還使用了窄帶調整方法和各種訓練加速策略。該方法實現了比Plenoxels快約90倍的訓練速度,內存需求減少了100到300倍。

2.8.2 Ray Transformers

IBRNet (2021年2月) 于2021年發表,是一種用于視圖合成的NeRF相關方法,在基準測試中被廣泛使用。對于目標視圖,IBRNet從訓練集中選擇 N 個觀察方向最相似的視圖。使用CNN從這些圖像中提取特征。對于單個查詢點,對于每個輸入視圖 i,使用已知的攝像頭矩陣投影到相應的圖像上以提取顏色 ??_i 和特征 ??_i。然后使用MLP來細化這些特征 ??_i’ 以使其具有多視圖感知能力,并產生池化權重 w_i。對于密度預測,使用權重對這些特征求和。對每個查詢點執行此操作,并將(沿光線的所有查詢點的)結果連接在一起,饋入Ray Transformer以預測密度。

與NeRF模型相比,Scene Rendering Transformer/SRT(2021年11月)對體渲染采取了不同的方法。他們使用CNN從場景圖像中提取特征塊,這些特征塊與攝像頭光線和視點坐標 {??, ??} 一起饋入編碼器-解碼器Transformer,然后產生輸出顏色。一次性查詢整條光線,這與NeRF模型不同。SRT是幾何無關的,不產生場景的密度函數,也不依賴于幾何歸納偏差。

NeRFormer(2021年9月)是一個可比較的并發模型,也將Transformer作為體渲染過程的一部分。NeRFormer使用交替的池化層和光線級注意力層處理來自多個源視圖的光線深度排序特征序列,實現有效的聯合特征聚合和光線行進。論文同時引入了Common Objects in 3D數據集。

3. 高斯飛濺之前NeRF及相關方法的應用

對于下面介紹的選定研究,其創新點聚焦于NeRF的具體應用,最終形成一個組織分類樹(圖12)。分類樹還包括某些先前在上一節中介紹過且具有強烈應用焦點的模型。

Adamkiewicz等人(2021年10月)的一項研究專注于定位和導航方面,展示了預訓練NeRF在協助機器人通過教堂導航的真實應用。作者使用預訓練的NeRF模型表示環境,機器人本身近似為用于碰撞檢查的有限點集合。由于NeRF模型是預訓練的,該方法不能被歸類為姿態估計模型,而是展示了NeRF在現實生活中的有趣用途。

Dex-NeRF (2021年10月) 使用NeRF學習到的密度來幫助機器人抓取物體,特別關注透明物體,這些物體通常是某些RGB-D攝像頭(如RealSense)產生的深度圖的失敗案例。該論文還提出了三個專注于透明物體的新數據集:一個合成數據集和兩個真實世界數據集。Dex-NeRF通過使用沿光線的密度的固定經驗閾值,在透明物體的計算深度方面改進了基線NeRF。然后,他們的NeRF模型用于產生深度圖,供Dex-Net 進行抓取規劃。Evo-NeRF(2022年11月)過重用序列抓取中的權重、提前終止和改進的輻射調整抓取網絡改進了Dex-NeRF。

下面將NeRF方法的應用分類為城市重建、人臉和鉸接體重建、表面重建和低級圖像處理。

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第34張

3.1 城市

訓練城市NeRF模型提出了一些獨特的挑戰。首先,室外環境是無界的;其次,攝像頭姿態通常缺乏多樣性;第三,需要大規模場景。

Urban Radiance Fields(2021年11月) 旨在將基于NeRF的視圖合成和3D重建應用于城市場景,使用稀疏多視圖圖像并輔以LiDAR數據。除了標準的體渲染損失外,他們還使用了基于LiDAR的深度損失 L_depth 和視線損失 L_sight,以及基于天空盒的分割損失 L_seg。這些由以下公式給出:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第35張

w(t) 定義為 T(t) σ(t)(公式3)。z 和 ? 分別是LiDAR測量的深度和估計深度(公式6)。δ(z) 是Dirac delta function。S_i(??)=1 表示第i張圖像中光線穿過天空像素,其中天空像素通過預訓練模型分割,否則為0。深度損失強制估計深度 ? 匹配LiDAR獲取的深度。視線損失強制輻射集中在測量深度的表面。分割損失強制穿過天空像素的光線采樣點具有零密度。3D重建是通過在體渲染期間從NeRF模型提取點云進行的。為虛擬攝像頭中的每個像素投射一條光線。然后使用預期深度將點云放置在3D場景中。泊松表面重建用于從這個生成的點云重建3D網格(見圖11)。

Mega-NeRF(2021年12月) 從無人機航拍圖像執行大規模城市重建。Mega-NeRF使用NeRF++反球體參數化將前景與背景分離。然而,作者通過使用更適合航拍視角的橢球體擴展了該方法。他們將NeRF-W的逐圖像外觀嵌入代碼整合到模型中。他們將大型城市場景劃分為單元,每個單元由其自己的NeRF模塊表示,并且每個模塊僅在具有潛在相關像素的圖像上進行訓練。對于渲染,該方法還將密度和顏色的粗略渲染緩存到八叉樹中。

Block-NeRFs(2022年2月) 從280萬張街道級圖像執行城市尺度的NeRF重建。如此大規模的室外數據集帶來了諸如瞬態外觀和物體等問題。每個獨立的Block-NeRF建立在mip-NeRF(使用其IPE)和NeRF-W(使用其外觀潛碼優化)之上。另外,作者使用語義分割在NeRF訓練期間掩蔽掉瞬態物體(如行人和汽車)。一個可見性MLP被并行訓練,使用NeRF MLP生成的透射函數(公式3)和密度值進行監督。這些用于丟棄低可見性的Block-NeRF。單元劃分為具有重疊的區塊,在每個區塊上訓練一個Block-NeRF。在重疊區域中采樣圖像,并在外觀編碼匹配優化后使用反距離加權進行組合。

其他有影響力的方法,如S-NeRF(2021年4月)、BungeeNeRF(2021年12月),也執行基于NeRF的城市3D重建和視圖合成,盡管使用的是遙感圖像。

3.2 人臉、人體化身和鉸接體

NeRF模型的一個關鍵應用是人體化身的重建,在虛擬現實/增強現實、數字娛樂和通信中找到應用。兩個NeRF模型家族針對這些應用:那些重建人類(或動物)面部的模型和那些重建人體/鉸接體的模型。人臉的重建要求NeRF模型在面部表情變化下具有魯棒性,這通常表現為拓撲變化。模型通常通過額外的MLP參數化變形場,可能以潛碼為條件,允許從基線人臉進行受控變形。值得注意的是,許多基于GAN的NeRF模型或GAN框架中的NeRF模型是在人臉數據集上訓練和調整的,因此可以說應放在本節。人體提出了一系列不同的挑戰。NeRF模型必須在鉸接體的姿態變化下保持魯棒,這通常被建模為具有模板人體模型的變形場。

Park等人引入了Nerfies(2020年11月),一個使用變形場構建的NeRF模型。變形場極大地提高了模型在存在場景非剛性變換(例如動態場景)時的性能。通過引入一個額外的MLP,并通過添加彈性正則化、背景正則化和通過自適應掩蔽位置編碼的從粗略到精細的變形正則化,他們能夠精確重建某些非靜態場景,而基線NeRF在這些場景上完全失敗。作者發現的一個有趣應用是創建多視角“自拍”。與Nerfies同時期的是NerFace(2020年12月),它也使用每幀學習的潛碼,并將面部表情作為從Face2Face構建的可變形模型的76維系數添加。隨后,Park等人介紹了HyperNeRF(2021年6月),它建立在Nerfies之上,通過將規范空間擴展到更高維度,并使用一個slicing MLP描述如何使用環境空間坐標返回到3D表示。然后使用規范坐標和環境空間坐標來條件化基線NeRF模型的常用密度和顏色MLP。HyperNeRF在合成具有拓撲變化的場景視圖方面取得了很好的效果,例如人類張嘴閉嘴,或剝香蕉皮。

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第36張

Neural Body(2020年12月) 將NeRF體渲染應用于視頻中具有移動姿態的人體化身。作者首先使用輸入視頻錨定一個基于頂點的可變形人體模型(SMPL)。在每個頂點上,作者附加了一個16維潛碼 ??。然后使用人體姿態參數 ??(在訓練期間從視頻估計,在推理時可以輸入)來變形人體模型。使用帶有神經變形場的基線SMPL骨架模型成為人體化身神經場渲染的基礎方法。結果如圖13所示。

NELF(2021年7月)提出了一個神經體積渲染框架,使用光傳輸向量建模場景外觀,僅需五張輸入圖像即可實現人類肖像的真實感重光照和新視圖合成。UNet風格的CNN提取每視圖特征,MLP回歸體積密度和傳輸向量,同時估計環境貼圖以解纏光照。在合成數據上訓練并通過域適應模塊適應真實圖像,該方法實現了照片級真實、光照一致的渲染,在質量和效率上均優于現有方法。

CoNeRF (2021年12月) 建立在HyperNeRF之上,但允許通過滑塊輕松控制照片編輯,滑塊的值被提供給每屬性Hypermap變形場,該場由MLP參數化。這是通過滑塊屬性值的稀疏監督標注和圖像塊掩碼實現的,對滑塊屬性值使用 L? 損失項,對掩碼監督使用交叉熵損失。CoNeRF在其示例數據集上取得了良好的效果,使用滑塊調整面部表情,這可能具有廣泛的商業應用,用于虛擬人化身。RigNeRF(2022年6月) 也在這個主題上進行了創新,使用由可變形3D人臉模型引導的變形場MLP,創建具有可控姿態和表情的完整3D人臉肖像。

標準NeRF方法在處理移動身體時遇到困難,而Neural Body的網格變形方法能夠在幀之間和姿態之間進行插值。為動畫化鉸接體建立了一個流行的范式,使用基線骨架,并在其上裝備基于MLP的變形場或神經場的其他實現。在接下來的兩年中,這激發了大量的研究,如A-NeRF(2021年2月)、Animatable NeRF(2021年5月)及其后續論文Animatable Implicit Neural Representation(2022年3月15日)、DoubleField(2021年6月)、HumanNeRF(2022年1月)、Zheng等人(2022年3月)、NeuMan (2022年3月)、PINA(2022年3月)、TAVA(2022年6月)、Fast-SNARF(2022年11月)、ELICIT(2022年12月)、X-Avatar(2023年3月),這些都在這個主題上進行了創新。

PREF(2022年9月)特別關注圖像序列中的動態和運動,通過正則化以潛在嵌入為條件的估計運動。盡管PREF在人體化身的圖像序列上訓練和測試,但它應該適用于其他領域。許多上述論文,如NeuMan和TAVA,也專注于在(人體主體)新姿態和動作下動畫化主體。

LISA(2022年4月)專門通過將人手近似為一組剛性部分來對手部進行建模。查詢點輸入到MLP中,用于預測幾何(通過SDF)和顏色。

另一個流行的研究子領域專注于面部化身,其約束/要求基于動畫化表情或面部拓撲。該研究領域正在從HyperNeRF和NeRFies 的開創性研究中延續并改進。一些有影響力的作品包括Neural Head Avatar(2021年12月)、IMAvatar(2021年12月)、INSTA(2022年11月)。

2022年,一個新興的研究領域是基于擴散的3D化身模型生成,該模型結合神經場和NeRF,由文本引導提供支持。DreamAvatar(2023年4月)、DreamHuman(2023年6月)、AvatarVerse(2023年8月)在概念上相似,使用SMPL模型作為形狀先驗,并使用文本引導的2D圖像生成(通過擴散)在類似DreamFusion的3D生成流程中創建訓練數據,其中流程結合了NeRF和擴散。

3.3 圖像處理

Mildenhall等人創建了RawNeRF(2021年11月),將Mip-NeRF應用于高動態范圍圖像視圖合成和去噪。RawNeRF在線性色彩空間中使用原始線性圖像作為訓練數據進行渲染。這允許改變曝光和色調映射曲線,本質上是在NeRF渲染之后應用后處理,而不是直接使用后處理圖像作為訓練數據。RawNeRF使用可變曝光圖像進行監督,NeRF模型的“曝光”根據訓練圖像的快門速度進行縮放,以及每個通道的學習縮放因子。它在夜間和低光照場景渲染和去噪方面取得了令人印象深刻的結果。RawNeRF特別適合光照較弱的場景。

與RawNeRF同時期的是Xin等人的HDR-NeRF(2021年11月),它也致力于HDR視圖合成。然而,HDR-NeRF通過使用具有可變曝光時間的低動態范圍訓練圖像來處理HDR視圖合成,而不是RawNeRF中的原始線性圖像。RawNeRF建模了一個HDR輻射 ??(??) ∈ [0, ∞),取代了標準公式(1)中的 ??(??)。HDR-NeRF建立在基線NeRF之上,使用相同的位置編碼和采樣策略。該模型在作者收集的合成HDR數據集上進行了訓練。HDR-NeRF在低動態范圍重建方面顯著優于基線NeRF和NeRF-W,并在HDR重建上取得了高視覺評估分數。

DeblurNeRF(2021年11月)對模糊過程進行建模,以從模糊輸入中恢復清晰的NeRF。它使用可變形稀疏核模塊,用稀疏光線近似密集模糊核,聯合優化光線起點以捕捉來自不同來源的光線混合。DSK通過MLP參數化適應空間變化的模糊,實現跨模糊類型的泛化。訓練僅依賴于模糊輸入,而推理時移除DSK以渲染清晰的新視圖。

NeRF-SR(2021年12月) 引入了一種超采樣策略,該策略在子像素級別強制多視圖一致性,改善了圖像和深度的超分辨率。超采樣從任何像素的子像素網格中采樣光線方向,而不是單一光線方向;其次,它平均子像素的顏色以進行監督。為了進一步增強細節,基于patch-wise warp-and-refine使用估計的3D幾何在場景中傳播高分辨率參考塊,計算開銷最小。與依賴配對LR-HR數據的先前方法不同,NeRF-SR僅需要姿態多視圖圖像,并利用內部場景統計。這標志著第一個在主要低分辨率輸入下產生高質量多視圖超分辨率的框架。

NaN(2022年4月)整合了視圖間和空間感知,增強了噪點魯棒性,在大運動和高噪點等挑戰性條件下實現了burst denoising的最先進結果。在IBRNet的基礎上,該方法僅需最少輸入即可泛化到未見場景,避免逐場景訓練。

3.4 語義NeRF模型

訓練具有語義理解或語義視圖合成能力的NeRF模型是高斯飛濺之前NeRF研究的一個關鍵發展領域。許多后續基于高斯飛濺的語義視圖合成和場景理解模型都建立在先前的基于NeRF的方法之上。

Semantic-NeRF(2021年3月)是一個能夠為新視圖合成語義標簽的NeRF模型。這是通過一個額外的方向無關MLP(分支)實現的,該MLP以位置和密度MLP特征為輸入,并產生逐點語義標簽 ??。語義標簽也通過體渲染生成:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第37張

語義標簽使用分類交叉熵損失進行監督。該方法能夠使用稀疏語義標簽數據(10%標記)進行訓練,并從逐像素噪點和區域/實例級噪點中恢復語義標簽。該方法還可用于語義標簽超分辨和標簽從稀疏逐點標注的傳播。它也可以用于多視圖語義融合,優于非深度學習方法。先前介紹的Fig-NeRF也采用了類似的方法。

Panoptic NeRF (2022年3月) 專注于城市場景,特別是3D到2D標簽傳播,這是擴展城市自動駕駛數據集的關鍵任務。該方法使用兩個語義場:一個由語義頭學習,另一個是剛性的,由3D邊界框確定。根據作者的說法,基于剛性邊界框的語義強制模型學習正確的幾何形狀,而學習的語義頭改進了語義理解。他們的方法在KITTI-360上進行了評估,優于先前的語義標簽轉移方法。

Panoptic Neural Fields(2022年5月) 首先將“stuff”(作者命名),即背景靜態物體,與“things”,即場景中移動的物體分離開來?!皊tuff”由單個(大型場景中為兩個,一個用于前景,一個用于背景)輻射場MLP表示,輸出顏色、密度和語義邏輯值,而每個動態“things”在其動態邊界框內由其自己的輻射場表示。總損失函數是光度損失函數和逐像素交叉熵函數的總和。該模型在KITTI 和KITTI 360上進行了訓練和測試。除了新視圖合成和深度預測合成外,該模型還能夠進行語義分割合成、實例分割合成以及通過操作物體特定MLP進行場景編輯。

Kobayashi等人(2022年5月)將現成的2D特征提取器的知識提煉到3D特征場中,他們將這些特征場與場景內輻射場聯合優化,以產生具有語義理解的NeRF模型,從而允許場景編輯。從基于CLIP的特征提取器進行的提煉允許從開放集文本標簽或查詢中進行zero-shot segmentation。

SS-NeRF(2022年6月)采用一個編碼函數和兩個位置解碼函數(一個方向相關,一個方向無關),均由多層感知器表示。該網絡被訓練產生各種場景屬性,在Replica數據集測試:顏色、語義標簽、表面法線、著色、關鍵點和邊緣,使用包括顏色的MSE、表面法線的MSE、著色的MAE、關鍵點和邊緣的MAE以及語義標簽的交叉熵的組合損失。這項研究表明,通過體渲染和簡單的NeRF訓練(無需使用高級神經架構)即可輕松實現場景屬性合成。

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第38張

3.5 表面重建

NeRF模型的場景幾何是隱式的,隱藏在神經網絡內部。然而,對于某些應用,需要更顯式的表示,例如3D網格。對于基線NeRF,可以通過評估和閾值化密度MLP來提取粗略幾何。本節介紹的方法使用創新的場景表示策略,改變了密度MLP的基本行為。嚴格來說,這些方法不是NeRF,而是歸類為通用神經場。在高斯飛濺之后,作者傾向于強調這種區別。

UNISURF(2021年4月)通過將離散體渲染方程(公式4)中使用的第i個采樣點處的alpha值 a?(公式5)替換為離散占據函數 o(??) = 1(在占據空間中),o(??) = 0(在自由空間中),來重建場景表面。這個占據函數也由一個MLP計算,本質上取代了體積密度。然后通過沿光線求根來檢索表面。UNISURF在包括在基線NeRF模型中使用密度閾值以及IDR等基準方法上表現出色。占據MLP用于定義場景的顯式表面幾何。特斯拉最近的一個研討會表明,其自動駕駛模塊的3D理解是由一個這樣的類NeRF占據網絡驅動的。

Neural Surface/NeuS(2021年6月) 模型執行類似于基線NeRF模型的體積渲染。然而,它使用SDF來定義場景幾何。它將輸出密度的MLP替換為輸出SDF值的MLP。然后,在體渲染方程(公式2)中替代 σ(t) 的密度 ρ(t) 構造為:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第39張

其中 Φ(·) 是sigmoid函數,其導數 dΦ/dt 是邏輯密度分布。作者表明,他們的模型優于基線NeRF模型,并為他們的方法及其基于SDF的場景密度實現提供了理論和實驗證明。HF-NeuS(2022年6月)通過將低頻細節分離到基礎SDF中,將高頻細節分離到位移函數中,極大地提高了NeuS的重建質量。同時,Geo-NeuS(2022年5月)為SDF引入了新的多視圖約束,形式為由稀疏點云監督的多視圖幾何約束,以及多視圖光度一致性約束。SparseNeus(2022年6月)同時期提出,通過使用具有可學習圖像特征的幾何編碼體積作為混合表示方法,改進了NeuS對稀疏視圖SDF重建的關注。

Azinovic等人(2021年4月)的一項并發研究將密度MLP替換為截斷SDF MLP。他們反而將像素顏色計算為采樣顏色的加權和:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第40張

w? 由sigmoid函數的乘積給出:

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第41張

其中 tr 是截斷距離,它截斷離單個表面太遠的任何SDF值。為了考慮可能的多光線-表面相交,后續的截斷區域被加權為零,不貢獻于像素顏色。作者還使用了NeRF-W的逐幀外觀潛碼來解釋白平衡和曝光變化。他們通過在其截斷SDF MLP上使用行進立方體,在ScanNet 和一個私有的合成數據集上實現了干凈的重建結果。

4. 高斯飛濺之后的神經渲染和NeRF

3D高斯飛濺是一種用于3D場景表示和新視角合成的方法,它使用一組各向異性的3D高斯來表示場景。每個高斯編碼位置、尺度、方向、不透明度和顏色,允許通過快速可微分飛濺過程渲染場景,該過程在屏幕空間投影和混合這些基元。高斯飛濺方法通常快得多,并產生略高質量的圖像,但需要更多的內存和存儲空間。

自原始論文以來,基于高斯飛濺的方法在許多新視角合成及相關任務上超越了NeRF及相鄰的神經渲染方法。研究動力的轉變如此劇烈,以至于隱式和混合神經場方法開始疏遠“NeRF”這個關鍵詞。盡管如此,這些方法在隱式神經場表示具有優勢的特定應用中仍然很受歡迎。在本節中,將詳細介紹相關的隱式和混合神經場方法以及NeRF方法。

4.1 使用隱式/混合神經場表示改進可微分體渲染

NeuRBF(2023年9月)是一種混合神經場模型,通過將自適應徑向基函數(RBF)與基于網格的RBF插值相結合,提高了表示的準確性和緊湊性。它推廣了早期的基于特征網格的神經場方法,引入多頻正弦組合(multi-frequency sinusoidal composition)來擴展每個基函數編碼的頻率。然后通過一個用于體渲染和SDF重建的MLP解碼這些特征。NeuRBF在2D圖像擬合、3D符號距離場重建和神經輻射場合成等任務中實現了最先進的性能。

FastSR-NeRF(2023年12月)在NeRF流程中引入了一個簡單的超分辨率/上采樣CNN。該方法訓練一個小型、快速、高效的NeRF模型來生成低分辨率3D一致特征,并使用一個快速SR模型對這些特征進行上采樣,顯著降低了體渲染的計算成本。與之前依賴復雜訓練過程、蒸餾或高分辨率參考圖像的NeRF+SR方法不同,FastSR-NeRF不需要架構更改或繁重計算。它引入了一種稱為隨機塊采樣的新穎增強技術,通過增加塊多樣性來提高SR性能。該方法特別適合消費級硬件,使神經渲染更易普及。

Viewing Direction Gaussian Splatting,/VDGS(2023年12月) 是一種混合方法,結合了高斯飛濺的快速高效渲染與NeRF的視角相關建模能力。VDGS使用3D高斯飛濺表示幾何,并使用基于NeRF的顏色和不透明度編碼。VDGS繼承了高斯飛濺的實時推理性能,同時顯著減少了視角相關偽影。

MulFAGrid(2024年5月)是一個通用的基于網格的神經場模型,它將乘法濾波器與傅里葉特征集成。受新的Grid Tangent Kernel理論指導,該方法強調高頻率區域的光譜效率,相比InstantNGP和NeuRBF等先前模型,提供了更好的泛化能力和學習容量。MulFAGrid支持規則和不規則網格,并通過網格和核特征的聯合優化進行訓練。在2D圖像擬合、3D符號距離場重建和新視角合成等任務上的結果顯示其卓越性能,在基于NeRF的基準測試中表現出色。雖然比3DGS等實時渲染器慢,但MulFAGrid為神經場表示提供了一個穩健、靈活的替代方案。

4.2 3D場景表示的發展

4.2.1 3D場景理解與語義

GP-NeRF(2023年11月)是一個將NeRF與2D語義分割模塊集成的統一框架,以實現上下文感知的3D場景理解。與先前將語義標簽和輻射場獨立處理的方法不同,GP-NeRF使用Field Aggregation Transformer和Ray Aggregation Transformer聯合學習輻射場和語義嵌入場。該架構允許在新視圖中聯合渲染和優化這兩個場。

DP-RECON(2025年3月)提出了一種分解式3D重建方法,將生成擴散先驗與神經隱式表示相結合。給定姿態多視圖圖像,該方法重建單個物體和背景,同時使用預訓練Stable Diffusion模型的分數蒸餾采樣優化幾何和外觀。為了解決生成先驗與觀測數據之間的沖突,引入了一種新穎的可見性引導優化。這種可見性圖通過基于體積透射率的可微分網格學習,用于調節每個像素的SDS和重建損失。該方法實現了高保真重建,特別是在遮擋區域,即使輸入視圖顯著減少也優于基線方法。此外,它支持詳細的場景編輯、風格化,并輸出帶有UV貼圖的分解網格。

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第42張

4.2.2 NeRF及相關神經渲染方法

Language Embedded Radiance Fields/LERF(2023年5月)是一種通過將CLIP特征嵌入3D輻射場,將自然語言理解直接集成到NeRF中的方法。盡管嚴格來說不是高斯飛濺之后的方法,但這篇有影響力的論文因其對新穎且主要在后高斯飛濺時代的研究領域的影響而被納入本節。LERF使用來自訓練視圖的多尺度特征金字塔構建語言場,將每個3D位置與尺度感知的語言語義相關聯。為了增強語義穩定性和結構,該框架還通過共享瓶頸整合了自監督DINO特征。其結果是一個模型,能夠響應自然語言查詢生成3D一致的相關性圖,優于投影到3D中的基于2D的開放詞匯檢測器。LERF支持實時、語義感知的3D交互,適用于機器人、場景理解和視覺語言接地等用例。

OV-NeRF(2024年2月)是一個執行開放詞匯3D語義分割的NeRF模型。該方法使用區域語義排序來增強單視圖語義精度,RSR利用來自SAM的區域級線索來提高語義圖中的邊界質量。為了解決跨視圖的語義不一致性,OV-NeRF引入了跨視圖自增強,利用NeRF的3D一致性來精煉相關性圖并生成用于額外監督的新語義視圖。這些組合策略減少了CLIP引起的歧義,并提高了多視圖一致性。在Replica和ScanNet的實驗顯示,mIoU比先前方法有顯著提升,證明了OV-NeRF在開放詞匯3D場景分割中的有效性和泛化性。

Hierarchical Neural Radiance/HNR(2024年4月)通過預測未來候選環境的魯棒多級語義特征,增強了視覺與語言導航。利用基于CLIP的視覺語言嵌入,該模型將3D感知的語言對齊視覺特征編碼到分層特征云中,并使用體渲染推斷未見或遮擋區域的語義上下文。這種分層編碼相比先前的2D生成方法提高了預測質量和空間理解。集成到一個由跨模態圖編碼Transformer組成的lookahead VLN框架中,用于通過未來路徑樹進行路徑規劃。整個框架允許使用基于神經場的3D視覺系統進行基于語言的路徑規劃。

Large Language and NeRF Assistant/LLaNA(2024年6月)是一個集成了NeRF的多模態語言模型。NeRF MLP權重使用編碼器嵌入到預訓練語言模型的潛在空間中。這種方法繞過了渲染圖像或提取幾何的需要,保留了NeRF表示。作者還提出了一個新的源自ShapeNet的NeRF-語言數據集,用于基于NeRF的問答任務。作者在后續工作Scaling-LLaNA(2025年4月)中引入了大規模訓練,提出了一個新的大規模NeRF-語言數據集,并分析了LLM大小。

4.3 擴散和神經場

4.3.1 用于3D生成和編輯的擴散

Shum等人(2023年9月)提出了一種使用文本到圖像擴散模型與NeRF集成的語言驅動3D場景編輯方法。該方法通過合成包含目標物體和背景的多視圖圖像(由文本提示引導),實現物體插入和移除。這些圖像用于通過姿態條件化數據集更新策略迭代優化NeRF,該策略逐步整合新視圖以保持一致性并穩定訓練。與依賴顯式幾何、深度或掩碼的先前方法不同,該方法僅需用戶通過3D邊界框進行粗略輸入。作者通過大量實驗展示了系統執行高質量、視角一致編輯的能力,并只需最少手動輸入,在基于NeRF的場景操作方面展示了最先進的結果。

ReconFusion(2023年12月)利用2D擴散先驗來增強NeRF質量,尤其是在稀疏視圖條件下。一個從預訓練潛在擴散主干微調而來的多視圖條件化擴散模型,在真實和合成數據集上訓練以合成新視圖。該模型通過類似分數蒸餾的方法在NeRF訓練循環中充當正則化器。該方法提高了不同設置下的重建保真度——在密集捕獲中減輕floaters和fog等偽影,并在有限視圖場景中實現合理的幾何。該方法為魯棒的NeRF優化提供了通用有效的先驗。

Comps4D(2024年3月)引入了一個用于生成組合式4D場景(即動畫3D場景)的框架。該方法超越了先前的以物體為中心的方法。它將過程解耦為兩個主要階段:(1) 場景分解以創建靜態3D資源;(2) 由LLM引導的運動生成。靜態物體使用NeRF表示生成。LLM根據文本輸入規劃全局軌跡,而局部變形通過可變形3D高斯表示學習。這種設置支持靈活渲染和魯棒的運動學習,即使在存在遮擋時。組合分數蒸餾機制優化物體動態。結果顯示,與現有方法相比,在視覺保真度、真實運動和連貫物體交互方面表現優越。

LN3Diff(2024年3月)提出了一種用于條件3D生成的潛在空間3D擴散框架。該流程采用變分自編碼器將輸入圖像映射到緊湊的3D感知潛在空間,然后通過基于Transformer的架構解碼為三平面表示。訓練利用具有多視圖或對抗監督的可微分渲染,每個場景僅需兩個視圖。卷積分詞器和Transformer層支持跨3D令牌的結構化注意力,促進連貫幾何。潛在表示支持快速攤銷推理和可擴展的擴散學習。LN3Diff在ShapeNet、FFHQ和Objaverse上針對3D重建和生成任務實現了最先進的性能,優于現有的GAN和基于擴散的基線,同時提供高達3倍的推理速度。

4.3.2 輔助圖像處理的擴散

Inpaint4DNeRF(2023年12月)引入了一種使用擴散模型的文本引導生成式NeRF修復方法,并自然擴展到4D動態場景。給定用戶指定的前景掩碼和文本提示,該方法使用Stable Diffusion修復選定的種子視圖,然后從這些視圖推斷粗略幾何。剩余視圖通過以種子圖像及其幾何為引導的基于擴散的修復進行細化,確保多視圖一致性。

DiSR-NeRF(2024年4月)解決了僅從低分辨率多視圖圖像生成高分辨率、視角一致NeRF的挑戰,因為使用LR圖像是NeRF訓練中常見的做法(由于計算成本)。簡單的2D超分辨率會導致跨視圖的細節不一致。為了解決這個問題,DiSR-NeRF引入了兩個新穎組件。首先,迭代式3D同步在2D基于擴散的超分辨率和NeRF訓練之間交替,逐步在3D空間中對齊細節。其次,本文引入了再噪分數蒸餾,通過優化中間去噪潛在特征來產生更清晰、更一致的結果。DiSR-NeRF無需高分辨率訓練數據,在生成高保真、超分辨NeRF方面優于現有方法。

MVIP-NeRF(2024年5月)引入了一種基于擴散的方法,用于神經輻射場的多視角一致修復。與先前依賴獨立逐視圖2D修復(導致不一致和幾何質量差)的方法不同,MVIP-NeRF跨視圖聯合優化以確保一致性。它采用帶有文本條件擴散模型的分數蒸餾采樣來引導掩碼區域的修復,同時在可見區域進行RGB重建。為了強制幾何一致性,該方法還蒸餾法線圖。新的多視圖SDS公式進一步增強了在大視角變化下的視圖一致性。MVIP-NeRF實現了NeRF修復的最先進結果。

Neural Gaffer(2024年6月)提出了一個類別無關的、基于2D擴散模型的單視圖重光照框架。與之前局限于特定物體類別的模型不同,它使用HDR環境貼圖在任意類別和光照環境下實現泛化。在具有基于物理材質和HDR光照的合成數據集上訓練,該模型捕捉了豐富的照明先驗,從而能夠從單張圖像進行準確且高質量的重光照。Neural Gaffer在合成和真實數據上均優于現有方法,可集成到圖像編輯任務中,并通過NeRF擴展到3D重光照。它為2D和3D領域的重光照建立了一個通用的基于擴散的先驗。

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第43張

4.4 使用隱式和混合神經場的SLAM

CP-SLAM(2023年11月)是一個基于神經點的(混合神經場)SLAM系統,支持多智能體協作定位和建圖,同時支持單個智能體的loop closure。它引入了一種新的關鍵幀關聯神經點表示,靈感來自Point-NeRF,允許在姿態圖優化期間輕松調整逐點特征。為確??缰悄荏w一致性,CP-SLAM采用兩階段分布式到集中式訓練方案:初始解碼器為每個智能體單獨訓練,然后融合并聯合微調。該系統將里程計、閉環檢測、子圖融合和全局優化集成到一個統一框架中。圖16展示了3D重建結果的可視化。

SNI-SLAM(2023年11月)是一個密集的基于NeRF的RGB-D SLAM系統,專為精確的實時3D語義建圖而設計。它解決了語義SLAM中的兩個核心挑戰:(1) 外觀、幾何和語義的相互依賴性;(2) 多視圖外觀和語義優化的相互不一致性。為此,SNI-SLAM引入了分層語義編碼和交叉注意機制,實現模態間的相互增強。它進一步提出了一種新穎的單向解碼器設計,以增強模態間信息流而不受反向干擾。

DNS-SLAM(2023年11月) 是一個密集語義感知SLAM框架,它基于按類別分解場景的混合基于點的神經場建圖模塊。與vMAP等僅關注重建的先前工作不同,DNS-SLAM引入了多類神經場景表示,顯式地將物體類別與攝像頭姿態關聯。它利用2D語義先驗和多視圖圖像特征,通過反向投影的幾何約束加強姿態估計。一個通過自監督訓練的輕量級粗略模型加速了跟蹤。為了進一步優化幾何,DNS-SLAM使用高斯分布先驗監督占據。

Neural Graph Mapping(2023年12月)引入了一種動態多場場景表示,由錨定在姿態圖中關鍵幀上的小型輕量神經場組成。這些場在閉環期間隨更新的姿態變形,實現一致的體積建圖,而無需昂貴的重新整合或固定的場景邊界。所提出的RGB-D SLAM框架將準確的稀疏視覺跟蹤與密集神經建圖相結合,在不同場景中實現魯棒性能。

DDN-SLAM(2024年1月)將語義先驗與基于NeRF的表示集成,以區分動態和靜態物體。跟蹤和基于NeRF的建圖被分離到四個線程中。分割線程識別并抑制動態特征點和區域。跟蹤線程提取特征,通過語義和幾何線索過濾它們,計算靜態光流,并產生攝像頭姿態和關鍵幀。建圖線程整合輸入稀疏點云以指導基于NeRF的光線采樣,并使用動態感知掩碼驅動關鍵幀選擇和體渲染,保留靜態表面幾何。閉環檢測線程檢測重訪區域并執行全局光束法平差,增強長程一致性。

PIN-SLAM(2024年1月)是一個使用基于點的隱式神經表示的全局一致SLAM系統。它用神經特征點取代網格結構,提供空間靈活性并在閉環期間進行彈性校正。建圖與里程計交替進行。建圖步驟基于具有顯式神經點和隱式MLP解碼器的混合神經SDF表示。里程計通過無對應關系的掃描到地圖優化執行?;瑒哟翱谥胤啪彌_區確保穩定的增量更新。閉環觸發姿態圖優化和神經點的彈性變形,實現大規模一致建圖。

KN-SLAM(2024年3月)集成本地特征對應關系,為基于NeRF的建圖模塊進行粗略姿態初始化,聯合優化光度損失和特征重投影損失。全局圖像特征和局部匹配用于顯式閉環檢測,隨后進行姿態圖優化和神經地圖的全局精煉以確保一致性。

SLAIM(2024年4月)引入了從粗到精的跟蹤流程,并通過高斯濾波圖像信號改進了光度束調整,提高了圖像對齊的收斂性。它保持了NeRF的原始體積密度公式,同時引入了在光線終止分布上的KL正則化。它解決了NeRF中高頻率渲染阻礙圖像對齊的挑戰。

HERO-SLAM(2024年7月)采用了一種新穎的基于多尺度塊的損失,通過扭曲對齊特征點、地圖和RGB-D像素。使用類似INGP的多分辨率混合特征網格+MLP表示進行神經SDF學習。在標準基準上的廣泛評估顯示,其優于先前的基于隱式場的SLAM方法,尤其是在挑戰性條件下。

MNE-SLAM(2025年6月)是第一個完全分布式的多智能體神經SLAM框架,支持準確的協作建圖和魯棒的攝像頭跟蹤,無需集中訓練或原始數據交換。該系統使用三平面+MLP混合神經場表示作為建圖模塊。它引入了intra-to-inter閉環策略,通過點對點特征共享和全局一致性損失減少姿態漂移并跨智能體對齊子圖。為支持基準測試,作者創建了INS數據集,這是一個具有高精度、時間連續軌跡和3D網格真實值的真實世界數據集,適用于在各種神經SLAM系統下進行評估。

4.5 使用隱式和混合神經場的人體化身

4.5.1 面部

HQ3D(2023年3月)引入了一種使用帶有多分辨率哈希編碼的體素化特征網格和解碼MLP生成高度照片級真實感面部化身的方法。在多視圖視頻數據上訓練,該模型在測試時僅需單目RGB輸入,且不需要網格模板或空間修剪。通過以視頻提取特征為條件的新穎規范空間,并通過光流損失進行正則化以實現無偽影、時間一致的重建。該方法支持新視圖和表情,以2K分辨率渲染,訓練速度比先前研究快4-5倍,并實時運行。他們同時引入了一個包含16個身份的4K多視圖新數據集。

Qin等人(2023年10月)引入了一個3D頭部化身框架,通過提出Spatially-Varying Expression/SVE克服了NeRF中全局表情條件化的局限性。與先前在整個3D空間使用統一全局表情編碼的方法不同,SVE整合了空間和表情特征,以實現對面部幾何和渲染的細粒度控制。生成網絡通過結合3DMM表情參數和位置特定特征來生成SVE。從粗到精的訓練策略通過初始化和自適應采樣進一步細化幾何和渲染。所得方法以顯著高于基于全局表情的NeRF的保真度捕捉皺紋和眼部運動等復雜細節。

NeRF技術五年發展梳理綜述:從神經輻射場到3D視覺應用的全面演進  第44張

BakedAvatar(2023年11月) 提出了一種用于在消費設備上實時渲染4D頭部化身的新穎表示,目標是照片級真實感和效率。與傳統的基于網格或NeRF的方法(要么難以處理頭發等精細細節,要么需要密集采樣)不同,BakedAvatar引入了一個與頭部表面緊密對齊的學習流形。從中提取分層網格代理以近似體積渲染,同時實現快速柵格化(見圖17)。

Bai等人(2024年4月)提出了一個3D神經化身系統,通過基于網格錨定的哈希表混合形狀現實時渲染、高保真度和精細控制。3DMM網格的每個頂點鏈接到一個本地哈希表,允許表情相關的嵌入和局部面部變形。這些局部混合形狀使用由驅動信號在UV空間中預測的逐頂點權重進行組合。使用帶有解碼MLP的哈希編碼(混合神經隱式場)從3D查詢預測顏色和密度,進行體渲染。

LightAvatar(2024年9月)是一個基于神經光場NeLF的頭部化身模型,消除了對顯式網格或體渲染的依賴,實現流線化、高效流程。預訓練的化身模型通過蒸餾監督LightAvatar。為避免教師監督帶來的性能限制,訓練結合了偽數據和真實數據。然而,由于3DMM擬合在真實數據上不完美,引入了變形場網絡來校正擬合誤差并提升質量。渲染在低分辨率下完成,并使用超分辨率模塊生成高分辨率圖像。

4.5.2 身體

Xu等人(2023年8月)提出了一種從稀疏或單目視頻創建可重光照和可動畫化人體化身的方法?;肀唤樵谝幏犊臻g預測材質屬性(光可見性、反照率、粗略度)和幾何屬性(SDF和表面法線)的MLP,通過神經變形場變換到世界空間。分層距離查詢算法混合世界空間KNN和規范SDF距離,通過球體追蹤實現準確的像素-表面相交,并改進了任意姿態下的渲染。該方法還將距離場軟陰影計算擴展到變形的SDF,允許高效的軟陰影渲染。

NECA(2024年3月)是一個可定制的神經化身框架,可在任意姿態、視角和光照下實現照片級真實渲染,同時支持形狀、紋理和陰影的細粒度編輯。NECA在規范空間和基于表面的UV切線空間中聯合學習人體表示,以捕獲共享結構和高頻姿態相關細節。幾何、反照率和陰影通過獨立的MLP預測,并優化環境光照。通過使用光度和法線約束進行自監督訓練,該框架建立在SMPL模型之上,并使用基于屬性的神經場處理SDF、反照率和陰影。

MeshAvatar(2024年7月)引入了三角形人體化身的混合表示,通過結合顯式網格幾何與神經符號距離和材質場,實現從多視圖視頻的端到端學習。該系統利用可微分行進四面體橋接網格和隱式組件,兼容傳統渲染管道和硬件加速光線追蹤。為增強表面重建和重光照,該方法整合了陰影感知基于物理的渲染、用于高頻細節的姿勢驅動2D神經編碼器,以及用于弱監督的立體估計法線圖(。該設計無需表面跟蹤或預定義模板即可實現高質量動態幾何和外觀。

HumanAvatar(2024年10月)引入了一個快速流暢的動態人體NeRF模型,從單目視頻重建可動畫化的人體化身。它結合了HuMoR (用于時間一致姿態估計)、Instant-NGP(用于加速規范形狀學習)和Fast-SNARF(用于高效變形到姿態空間)。為克服動態設置中傳統體渲染的低效性,該方法提出了姿態敏感空間縮減和動態占據網格,用于在渲染期間跳過空白區域。這種混合設計顯著提高了重建質量和速度。

5 討論

5.1 NeRF vs. 高斯飛濺

NeRF和高斯飛濺都是新視角合成方法。它們的表示不同:NeRF及相鄰的神經場渲染方法使用隱式或混合神經場來表示3D場景,而高斯飛濺方法使用場景的顯式3D點云狀表示。它們的渲染范式也不同:本綜述中介紹的NeRF及相關神經場渲染方法使用類似光線追蹤的可微分體渲染,沿著虛擬攝像頭光線采樣神經密度和顏色場;而高斯飛濺方法使用基于橢圓形3D高斯基元的2D投影的可微分柵格化,并且不沿著攝像頭光線顯式采樣顏色值。因此,類NeRF方法通常更節省內存和存儲。然而,類NeRF方法通常比高斯飛濺方法慢得多,并且視圖合成質量通常略低。

許多高斯飛濺方法(2023-2025)直接改編或深受2020-2022時代NeRF研究的啟發。盡管近年來新視角合成研究的勢頭轉向了高斯飛濺,但NeRF和基于神經場的方法在某些應用中仍然具有優勢。在技術方面,如前所述,與高斯飛濺等顯式表示相比,隱式和混合表示(如神經場)以速度為代價換取內存和存儲效率。高斯飛濺中“飛濺”式柵格化的實現也比NeRF和神經場方法的體渲染方法更快,且不犧牲視圖合成質量。

然而,體渲染方法更適合體積場景元素,如灰塵或霧:這些場景元素在標準高斯飛濺方法中會導致floaters。最后,神經場方法更適合某些計算。神經場可以在3D坐標的連續體上進行查詢,并且非常適合表示空間分布屬性。這與離散的3D點云狀表示形成對比,后者必須經過進一步設計才能表示空間分布屬性。

由于更快的訓練和推理時間以及更高的視圖合成質量,高斯飛濺方法在很大程度上已經超越了NeRF相鄰方法在新視角合成及相關研究領域(包括3D模型生成、帶有場景語義的視圖合成和3D場景表示-重建-編輯)的應用。這體現在高斯飛濺時代之后,隱式和混合神經場出版物在這些研究領域的數量和影響力要低得多。

5.2 高斯飛濺之后NeRF和神經場渲染的應用

隨著大語言模型、視覺語言模型和預訓練2D基礎模型的快速發展,3D場景理解和3D grounding成為一個新的研究領域。然而,盡管該領域最近取得了一定進展,但grounded 3D場景表示和基于VLM的3D表示研究(包括3D問答和語義理解)主要由基于高斯飛濺的方法主導。

SLAM和3D人體化身仍然是一個受歡迎的研究領域。一個可能的原因是隱式和混合神經場表示對這兩個應用具有優勢。這些表示需要更少的內存和存儲,并且更容易查詢(只需在空間中特定點調用神經場),這與點云狀的3D高斯飛濺表示相反。3D場也可以從框架的表述中自然產生,就像鉸接人體化身建模的情況一樣。

在SLAM中,隱式和混合表示比高斯飛濺等顯式表示具有更低的內存和存儲需求。這對于設計在平臺本身上執行SLAM的方法可能是相關的。此外,如第V-D節所述,一個新興的研究領域是將SLAM與自主智能體導航相結合(與用戶控制導航相對)。某些自主導航算法可能更喜歡易于查詢的隱式3D表示,而不是3D點云狀的高斯飛濺表示。

對于3D人體化身,主導范式是在基線鉸接SMPL骨架模型之上構建神經場。NeRF及相關方法更自然地適應這個框架。許多基于SMPL的高斯飛濺方法使用神經場和高斯基元表示的組合[257, 258, 259]。因此,隱式和混合神經場方法在這個研究領域仍然很受歡迎也就不足為奇了。

相關論文:NeRF: Neural Radiance Field in 3D Vision: A Comprehensive Review

https://arxiv.org/pdf/2210.00379

6. 結論

自Mildenhall等人的原始論文以來,NeRF和隱式/混合神經場渲染方法在速度、質量和訓練視圖要求方面取得了巨大進步,解決了原始模型的弱點。NeRF模型在城市場景測繪、攝影測量、圖像編輯、標注、處理以及人體化身和城市環境的3D重建和視圖合成等領域找到了眾多應用。盡管計算機視覺界的研究興趣在許多關鍵研究領域已轉向高斯飛濺,但在隱式/混合表示或體渲染方法具有優勢的應用中,業界對NeRF和隱式/混合神經場渲染依然有非常大的興趣。另外,諸多高斯飛濺方法都受到早期NeRF方法的啟發。通過研究早期的NeRF和神經場渲染論文,未來的研究人員可能會為其他基于新視角合成的研究找到進一步的靈感。

NeRF是新視角合成、3D重建、3D場景表示及其應用的一個令人興奮且有趣的范式。通過提供本綜述,團隊旨在向更多計算機視覺從業者介紹這一領域,提供現有NeRF模型和數據集的實用參考,并通過相關討論激發未來的研究。