能夠在消除偽影的同時,達到72+ FPS的幀率

中國AI網 2025年08月29日)33DGS已迅速成為新視角合成領域的領先技術,通過高效的基于軟件的GPU光柵化提供了卓越的性能。其多功能性使其能夠應用于實時場景,包括移動設備和低功耗設備。然而,3DGS在虛擬現實中面臨關鍵挑戰,包括時間偽影,基于投影的失真,以及渲染幀率下降等等

與桌面環境相比,頭戴式顯示器的大視場角、持續的頭部運動和高分辨率極大地放大了問題。在一項研究中,北京大學,格拉茨技術大學和卡內基梅隆大學團隊介紹了VRSplat。

他們結合并擴展了3DGS領域的多項近期進展,以整體性地解決VR挑戰,并展示了Mini-Splatting、StopThePop和Optimal Projection的思想如何通過修改各自的技術以及核心3DGS光柵化器來相互補充。另外,研究人員提出了一種高效的注視點渲染光柵化器,它能在單次GPU啟動中處理焦點區域和外圍區域,避免冗余計算并提高GPU利用率。

所提出方法同時包含一個微調步驟,以基于StopThePop的深度評估和Optimal Projection來優化高斯參數。一項包含25名被試的受控用戶研究驗證了所提出方法,結果顯示參與者強烈偏好VRSplat而非其他Mini-Splatting配置。VRSplat是首個經過系統評估、能夠支持現代VR應用的3DGS方法,能夠在消除偽影的同時,達到72+ FPS的幀率。

中美三校聯合團隊開發VRSplat技術提升VR高斯渲染效率  第1張

近年來,新視角合成領域因神經輻射場NeRF的引入及其后續的廣泛發展而取得了顯著進步。最近,3DGS通過使用顯式的3D高斯點云而非隱式的體積場來表示場景,帶來了范式轉變。3DGS不僅提供高視覺質量和短訓練時間,而且能通過基于GPU的軟件光柵化或傳統圖形管道實現高效渲染。

捕獲和合成真實世界場景的新視角在各種應用中至關重要,例如沉浸式體驗。其中,虛擬現實 因其對高幀率和交互性的嚴格要求而成為一個特別的焦點。3DGS光柵化令人印象深刻的性能使其非常適合在低功耗頭戴式顯示器渲染,但原始3DGS實現中的幾個局限性會破壞沉浸式體驗。

光柵化過程中對全局圖元排序的依賴會在視點變化時引入突現偽影,這在VR中尤其令人不適,因為頭顯中頭部持續存在微運動。另外,將3D高斯投影到2D Splat會導致投影誤差,并且誤差隨著距圖像平面中心距離的增加而加劇。在VR中,由于寬視場角,誤差進一步放大,導致高斯變得扭曲或呈云狀,從而損害視覺體驗。

最后,3DGS重建中由啟發式驅動的致密化通常會產生過大的點云,由于運行時間與圖元數量直接相關,因此難以維持交互式幀率。

為了解決上述局限性,北京大學,格拉茨技術大學和卡內基梅隆大學團隊引入了VRSplat,這是一個用于在VR中渲染高斯飛濺的魯棒且高效的解決方案。所提出方法以有意義的方式結合了3DGS領域的最新進展,并引入了新穎的、有針對性的高性能優化,以確保視覺一致、無偽影的渲染,同時維持VR所需的幀率。

盡管VRSplat可以與任何生成緊湊3D高斯集的場景重建方法一起使用,但由于其減少了圖元數量,他們選擇了Mini-Splatting,并采用StopThePop中使用的分層光柵化 來緩解突現偽影,同時應用Optimal Projection來消除投影偽影。然而,這兩種方法都伴隨著顯著的性能開銷。為了應對這一點,他們提出了一種單通道注視點渲染技術,以提高了性能并確保在原生頭顯分辨率下持續達到建議的≥ 72 FPS幀率。

中美三校聯合團隊開發VRSplat技術提升VR高斯渲染效率  第2張

消除突現偽影

由于Mini-Splatting使用顯著減少的圖元數量來表示場景,高斯自然更大,因此更容易出現突現偽影。先前的研究證明,根據沿視線方向的深度對高斯潑濺進行分層逐像素重排序 能夠有效克服突現偽影。因此,選擇相關渲染器來實現視覺一致的渲染。3DGS使用其可微渲染器通過反向傳播優化高斯參數(包括位置、旋轉、尺度、不透明度和球諧系數)。排序順序在優化過程中起著重要作用,即模型需要使用與訓練時相同的排序順序進行渲染。

因此,直接將StopThePop應用于Mini-Splatting模型(在訓練期間使用全局排序順序)會降低圖像質量。所以,研究人員選擇使用StopThePop光柵化(不進行致密化,從而保持低圖元數量)對小型Mini-Splatting模型進行微調,事實證明這足以在標準圖像質量指標上達到同等或更高的分數(具體取決于數據集)。

最小化投影誤差

由3DGS的局部仿射近似引起的基于投影的失真在VR中尤其令人困擾,因為大視場角和用戶頭部的持續運動會導致云狀偽影旋轉并遮擋視線。Optimal Projection對投影步驟引入的誤差進行了詳細分析并提出了解決方案:即,將每個高斯投影到單位球體在點o處的切平面上,平面垂直于連接o和??的直線,其中o表示camera位置。

然而,Optimal Projection與StopThePop中提出的Tile Based Culling并不直接兼容。Tile Based Culling通過以下方式減少高斯/Tile組合的數量:(1) 計算每個高斯/Tile組合的??2D最大值;(2) 如果?? < 1/255,則從特定Tile中剪除該高斯。先前研究表明,可以通過最大化高斯在距離2D均值最近的Tile邊界上的貢獻來計算??2D的最大值。然而,這一計算完全在屏幕空間中使用軸對齊Tile完成,因此需要一種改進的算法來配合Optimal Projection工作。

當2D高斯的均值??2D位于Tile內部時,最大貢獻點x? = ??2D;否則,x?必須位于從??2D可達的其中一條邊上。對于Optimal Projection,Tile Based Culling無法再在圖像平面執行,而是需要在每個高斯的優化平面進行評估。從??2D最多可能到達兩條相鄰邊,因為投影保留了它們在原始視圖平面中的幾何關系。對于每個候選邊p + ?? · d,通過求密度關于??的導數并令其等于零,可以計算出沿該線的最大密度點。

單通道注視點渲染

為了彌補StopThePop光柵化和Optimal Projection帶來的性能損失,團隊利用外圍視覺敏銳度較低的特點,采用注視點渲染。盡管多通道解決方案(分別渲染中心和外圍區域)僅需對流程進行微小更改,并且在結合適當的剔除時可能有效但它們需要多次處理相同的高斯。因此,他們提出了一種有針對性的單通道解決方案。

團隊僅通過啟動不同大小的Tile來區分高分辨率區域和低分辨率區域。然而,所有的策略可以直接應用于進一步降低分辨率。如圖5a所示,通過為中心區域使用16×16像素Tile,為外圍區域使用32×32像素Tile來實現高分辨率與低分辨率區域的分割。在實踐中,總是首先將圖像劃分為32×32像素Tile,這些Tile在中心區域被分割為四個獨立的16×16子Tile。

這種映射可以在每次渲染通道開始時高效計算,并且能夠在渲染階段計算需要啟動的確切塊數。像Meta Quest 3這樣的消費級頭顯通常不提供眼動追蹤,因此可以為每只眼睛預計算一次此映射,并在幀之間重復使用。

在基于Tile的光柵化過程中,將高斯分配給32×32Tile。這導致總體上高斯/Tile組合更少,但在渲染階段增加了工作負載,因為中心區域的子Tile需要加載更多的高斯。然而,利用StopThePop的分層剔除來緩解此問題,使得能夠為16×16子Tile早期高效地剔除不必要的高斯。

在渲染階段,為16×16和32×32Tile都啟動包含256個線程的塊(與StopThePop和3DGS相同)。但是,較大Tile中的每個線程處理2×2像素組并將它們視為單個像素,有效地將分辨率減半。最后,將高分辨率區域與低分辨率區域混合以避免明顯的間斷。對于高分辨率區域中的過渡子Tile,通過平均2×2像素的值來近似低分辨率Tile的顏色,并根據連續混合掩碼將其與單個像素值混合。對于低分辨率區域,執行最近鄰上采樣并使用3×3高斯核進行模糊處理,這證明能有效抑制偽影。

團隊提出通過剔除頭顯中不可見的Tile來進一步加速渲染。處理頭顯可用的可見性掩碼(例如通過OpenXR),為每個Tile創建一個比特字段,指示Tile的任何像素是否可見。隨后,從這個比特字段計算一個積分和表,并分兩個階段實例化高斯/Tile組合:首先,使用積分和表計算每個高斯可能接觸的可見Tile的精確數量(見圖5b);然后,使用此信息分配全局排序緩沖區,并計算每個高斯的實例在此緩沖區內的范圍。

這導致排序條目減少,因為圖像可見區域之外的高斯/Tile組合不會被實例化。在單通道注視點渲染方法中,可以通過將“不可見”Tile完全從預計算的映射中移除來進一步減少Tile數量,這導致Tile數量減少約11%,高斯/Tile組合總數減少約6%。

團隊在一個受控用戶研究中定量和定性地評估所有方法,使用三個公認的數據集:Mip-NeRF 360數據集、Tanks & Temples 和Deep Blending。他們使用支持OpenXR的SIBR框架[和定制的軟件光柵化器進行性能評估和用戶研究,其中使用接到配備NVIDIA RTX 4090的臺式機的Meta Quest 3,并以原生分辨率(2064 × 2272像素)進行渲染。除了所提出方法,團隊同時消融了一個優化的兩通道注視點渲染器,以展示單通道方法的性能改進。

相關論文:VRSplat: Fast and Robust Gaussian Splatting for Virtual Reality

https://arxiv.org/pdf/2505.10144

總的來說,團隊確定了3DGS在提供高質量虛擬現實體驗方面的局限性。通過回顧解決其中部分挑戰的最新進展,研究人員開發了一個解決方案,整合了多種技術以實現沉浸式、無偽影的VR渲染。另外,他們提出了一種新穎的單通道注視點渲染解決方案。以Meta Quest 3作為基礎,相關解決方案在所有測試場景中始終達到實時幀率。另外,正式用戶研究驗證了結果,表明用戶在不同場景集上對所提出方法有明確的偏好。

盡管方法成功緩解了最突出的偽影,但近似的分層深度排序在具有復雜幾何關系的區域中仍可能導致閃爍。這突顯了對3D高斯進行魯棒的細節層次方案或完全精確的體積渲染的需求。盡管光追3DGS是一種潛在的解決方案,但最近的研究表明,它目前對于高質量的VR體驗來說計算成本依然過高。