在消費級設備渲染大規模3DGS模型

中國AI網 2025年06月13日)在消費級設備渲染大規模3DGS模型面臨著實現實時、高保真性能的重大挑戰。要在虛擬現實等應用中充分發揮3DGS的潛力,就需要解決關鍵的系統級挑戰,以支持實時的沉浸式體驗。

在一項研究中,上海人工智能實驗室和清華大學團隊提出了GS-Cache。這個端到端框架無縫集成了3DGS的高級表示和高度優化的渲染系統。

GS-Cache引入了一個以緩存為中心的管道來消除冗余計算,一個用于彈性多GPU渲染的效率感知調度程序,以及優化的CUDA內核來克服計算瓶頸。這種3DGS和系統設計之間的協同作用使得GS-Cache能夠實現高達5.35倍的性能提升,減少35%的延遲,降低42%的GPU內存使用,并支持超過120 FPS的2K雙目渲染。

通過彌合3DGS的表示能力與VR系統需求之間的差距,GS-Cache為沉浸式環境中的實時神經渲染建立了一個可擴展且高效的框架。

清華大學等創新3DGS框架GS-Cache實現城市級場景120FPS雙目2K渲染  第1張

實時渲染高質量、大規模的3D場景是一項資源密集型任務。3D場景的渲染在包括虛擬現實、增強現實和元宇宙在內的諸多領域都起著至關重要的作用。

神經輻射場NeRF和3DGS作為3D重建和渲染的新方法,能夠渲染出令人難以置信的真實感和細節圖像,支持各種對視覺感知要求非常高的應用。隨著對更精細場景質量和更大場景規模的需求增加,新的方法如結構化高斯推導方法不斷出現。

3DGS方法實現了大規模場景的重建,支持城市級3DGS模型訓練。然而,大規模場景實時渲染的計算和內存強度隨著場景規模的擴大而顯著增加,一般的解決方案通常涉及計算資源的擴大。

結構化高斯推導方法實現了高質量的重建,從模型結構上一定程度上降低了大尺度場景實時渲染的難度,是實現VR大尺度場景逼真渲染最有前途的方法之一。因為VR渲染對質量和性能的要求明顯高于其他應用。

目前的3DGS渲染管道是兩只眼睛交替渲染圖像,不足以支持沉浸式VR體驗所需的幀率(每只眼睛72 FPS的最低要求意味著總共至少144 FPS)。

上海人工智能實驗室和清華大學團隊在結構化3DGS模型OctreeGS進行了實驗,跟蹤FPS并分析推理時間開銷。他們指出,FPS會隨著視角的提升而下降。很大一部分推理時間花在推導階段,這是一個主要的開銷。正如大型語言模型使用KV緩存來加速推理一樣,團隊考慮使用緩存來加速3D模型推理。

渲染通常是一個連續的過程,在連續的幀之間有很多重疊。重疊區域重用前一幀的數據,導致顏色差異很小。有其他研究人員提到,人眼很難辨別細微的顏色變化。所以,團隊設計了一個帶有動態緩存的彈性渲染框架來存儲以前的數據,從而加速渲染。

研究人員提出了一種用于大規模高斯飛濺渲染的計算框架GS-Cache,其中場景包含的區域達到幾平方公里的城市級規模,從而實現雙目2K分辨率頭戴式顯示器的實時渲染幀率要求,如圖5所示。架構圖的中間部分表示整個框架的主要結構,右側顯示其彈性并行調度器結構,左側顯示以緩存為中心的渲染管道結構。彈性并行調度程序動態調度GPU資源,穩定FPS,避免資源浪費。

對于結構化的3DGS模型,將原有的管道轉換為以緩存為中心的管道,目的是基于冗余和重用的原則提高渲染速度。另外,針對結構化高斯派生渲染管道中一般計算模式的瓶頸階段,研究人員引入了專用的CUDA內核進行進一步加速,提高了長時間渲染時實時渲染的幀率性能。

清華大學等創新3DGS框架GS-Cache實現城市級場景120FPS雙目2K渲染  第2張

3D重建場景的渲染過程涉及到對學習到的3D空間特征的推理和轉換,這使得傳統的專注于1D或2D特征(如文本和圖像)的計算框架在相關任務中很弱,如Pytorch、Tensorflow、JAX等。這種深度學習框架具有通用性和可擴展性,足以實現神經渲染方法(如NeRF和3DGS)的基本計算管道。然而,在渲染應用程序的進一步開發中實現易用性是一個挑戰,并且缺乏專門的算子來支持高維空間的稀疏計算,導致渲染管道的計算速度無法實現實時渲染。

一系列用于神經渲染的專用框架,如NeRFStudio和Kaolin-Wisp,通過模塊化提高了模型結構實驗研究的易用性;以及用于稀疏計算的專用算子庫,如Nerfacc,通過加速NeRF計算管道中的特定階段,提高了整體渲染速度。盡管它們建立了強大的社區影響力,并迅速推動了NeRF、3DGS等神經渲染的相關研究,拓展了基于神經渲染的應用領域,但渲染速度依然難以支持大規模場景中沉浸式VR體驗的實時渲染幀率要求。

相反,GS-Cache框架提供了一種全新解決方案。優化后的計算管道消除了計算冗余,為沉浸式VR體驗進行有效的計算重用,并在渲染過程中靈活調度GPU計算資源,確保穩定、高的渲染幀率,優化消費級GPU資源的能效。

另外,它通過專門的CUDA內核加速了管道中的主要計算瓶頸,進一步提高了VR渲染的性能。

相關論文:GS-Cache: A GS-Cache Inference Framework for Large-scale Gaussian Splatting Models

總的來說,團隊展示了一種面向結構化高斯推導方法的渲染框架GS-Cache框架,它可以實現包括城市和街道高斯重構場景在內的大規模場景實時渲染,能夠滿足沉浸式VR體驗的高速和高保真要求。

他們的關鍵貢獻包括以緩存為中心的去冗余渲染管道,支持多GPU并行和彈性調度的渲染框架,以及用于計算瓶頸階段的專用CUDA內核。在實驗中,團隊驗證了GS-Cache框架相較于基線方法實現了顯著的性能提升,在消費級GPU等資源有限的情況下,能夠滿足雙眼2K分辨率大于72FPS和大于120FPS的幀率要求,且不會造成明顯的質量損失。