支持高達4K (2048 × 4096)的分辨率

中國AI網 2025年05月09日)隨著便攜式360度攝像頭的出現,全景應用獲得了極大的關注。所以,寬基線全景視圖合成已經成為一項重要的任務,其中高分辨率,快速推理和內存效率必不可少。然而,由于內存和計算需求的限制,現有的方法通常限于較低的分辨率(512 × 1024)。

在一項研究中,蒙納士大學,Building 4.0 CRC,蘇黎世聯邦理工學院團隊提出了一種可泛化的前饋方法PanSplat,并能有效地支持高達4K (2048 × 4096)的分辨率。

所述方法具有定制的球形3D高斯金字塔和斐波那契晶格排列,在減少信息冗余的同時提高了圖像質量。為了適應高分辨率的需求,研究人員提出了一個集成了分層球面成本體積和高斯頭與局部操作的管道,實現了在單個A100 GPU進行內存高效訓練的兩步延遲反向傳播。

實驗證明,PanSplat在合成和真實數據集都能以卓越的效率和圖像質量獲得最先進的結果。

PanSplat框架通過球形高斯排列技術提升4K全景VR渲染效率  第1張

隨著360度攝像頭和沉浸式技術的興起,對虛擬現實和虛擬旅行的需求激增。全景光場系統支持用戶在指定的虛擬空間內從一系列任意視點探索環境,為提供逼真的沉浸式體驗提供了引人注目的解決方案。

360度攝像頭的最新進步簡化了沉浸式內容的創建,推動了街景和虛擬旅游等應用的發展。其中,從寬基線全景圖合成的新穎視圖對于提供位置之間的平滑過渡至關重要。

近年來,深度學習在沉浸式內容創作方面取得了重大進展。盡管目前的方法已經廣泛地探索了寬基線全景視圖合成,但它們往往難以平衡計算效率、內存消耗、圖像質量和分辨率。

傳統方法依賴于明確的3D場景表示,如多平面圖像或網格。它們提供了潛在的高分辨率可擴展性,但通常會產生較低的圖像質量。相比之下,基于神經輻射場NeRF的方法提供了高質量的結果,但計算要求高,內存密集,使其不適合高分辨率全景圖。

大多數現有方法的最大分辨率都限制在512×1024,遠低于4K (2048×4096),而這是VR應用程序中真正沉浸式體驗通常需要的分辨率。

3DGS的新趨勢在合成新視圖方面顯示出有希望的結果,標志著圖像質量和計算效率的重大進步。通過將場景表示為高斯基元的集合,3DGS使用柵格化而不是NeRF的體三維采樣來實現高質量,高效的渲染,同時為訓練提供了可微分渲染。

隨后的研究進一步推動了3DGS的發展,通過引入前饋網絡直接從輸入圖像中預測高斯分布,并將其擴展到稀疏視圖輸入。

盡管取得了進步,但現有的3DGS方法并不能直接適用于全景圖。這主要有兩個挑戰:全景圖獨特的球形幾何形狀與像素對齊的高斯分布相沖突,導致兩極附近的高斯分布重疊和冗余;VR應用的高分辨率需求,由于內存限制,當前方法無法有效擴展。

在一項研究中,蒙納士大學,Building 4.0 CRC,蘇黎世聯邦理工學院團隊提出了PanSplat,一種針對4K分辨率輸入優化的前饋方法,以生成專門為全景格式定制的3D高斯表示,從而實現從寬基線全景圖中合成4K新穎視圖。

為了解決第一個挑戰,研究人員引入了3D高斯函數的斐波那契晶格排列(如圖2所示),通過在球體均勻分布來顯著減少所需的高斯函數。另一方面,為了提高渲染質量,團隊實現了3D高斯金字塔,在多個尺度表示場景,不紅不同層次上的細節。

PanSplat框架通過球形高斯排列技術提升4K全景VR渲染效率  第2張

為了解決第二個挑戰,利用基于transformer網絡的分層球形成本體積來估計高分辨率3D幾何形狀,從而提高效率。然后,用局部操作設計高斯頭來預測高斯參數,實現兩步延遲反向傳播,以實現4K分辨率下的高效內存訓練。

另外,他們引入了一種延遲混合技術,以減少由于移動對象和深度不一致而導致的高斯分布不一致的偽影,從而提高現實場景中的渲染質量。

相關論文:PanSplat: 4K Panorama Synthesis with Feed-Forward Gaussian Splatting

總的來說,PanSplat是一種可泛化的前饋方法,用于從寬基線全景圖中合成新的視圖。為了有效地支持沉浸式VR應用的4K分辨率(2048×4096),團隊引入了一個可以實現兩步延遲反向傳播的管道。另外,他們提出了一個球面三維高斯金字塔,其具有專為全景格式定制的斐波那契晶格排列,從而提高渲染質量和效率。

大量的實驗證明了PanSplat在圖像質量和分辨率方面優于現有技術。當然,盡管PanSplat為高分辨率全景新視圖合成提供了一個很有前途的解決方案,但它缺乏對動態場景中移動對象的支持。所以,未來的工作把偶哦探索擴展PanSplat,通過結合動作感知表示來處理動態場景。

代碼請訪問這個頁面。