高效的3D內容交付框架

中國AI網 2025年07月21日)傳統的3D內容表示包括密集的點云,消耗大量的數據和網絡帶寬,而新的表示,如神經輻射場NeRF,由于其非標準的體積渲染管道,幀率很低。3D高斯飛濺(3DGS)可以看作是點云的一種泛化,它滿足了兩者的最佳效果,具有高視覺質量和實時幀率的高效渲染。然而,由于高網絡數據消耗(例如單個場景1.5 GB),將3DGS場景從托管服務器傳送到客戶端設備依然具有挑戰性。

在一項研究中,加州大學和密歇根大學團隊希望創建一個高效的3D內容交付框架,允許用戶使用3DGS作為底層數據表示來查看高質量的3D場景。團隊的主要貢獻包括:

創建新的Layered 3D Gaussian Splats場景以實現高效傳輸;

調度算法以選擇在什么時間下載哪些 splat;

由VR頭顯設備用戶進行的實驗以評估視覺質量和延遲。

團隊提出的Layered 3D Gaussian Splats系統顯示出高視覺質量,與基線相比,平均SSIM提高了16.9%,并且可以與其他壓縮3DGS表示一起使用。

加州大學與密歇根大學研發分層3D高斯飛濺傳輸技術  第1張

傳統的3D內容表示包括網格和點云。最近,3D場景建模的新技術已經出現,在真實感和建模能力方面優于傳統表示,例如神經輻射場(NeRF)和3D高斯飛濺(3D Gaussian Splat/3DGS)。NeRF需要大量的機器學習模型訓練來表示3D場景,并依賴于緩慢的體渲染技術。

2023年引入的3D高斯飛濺可以看作是點云的泛化,其中每個3D“splat”都具有位置,體積和顏色特征。它們已經實現了突出的實時渲染能力和優秀的視覺質量。通常,3D場景存儲在服務器,因為創建3D場景需要大量的計算。想要查看3D場景的客戶可以下載場景模型并在本地渲染以供查看。這給查看3DGS場景的用戶帶來了幾個網絡傳輸挑戰:

3DGS場景可能非常大,并且在查看之前下載整個場景會給用戶造成很長的啟動延遲。

3DGS場景由大量的splats(在標準數據集中為700k到1M)組成,splats對視覺質量的重要性各不相同。目前尚不清楚哪些splat應該優先交付給用戶。

3DGS場景沉浸在用戶周圍。用戶有完整的六個自由度,可以自由走動,從不同角度查看場景的不同層和部分,所以很難確定要向用戶提供哪些部分。

在這項研究中,加州大學和密歇根大學團隊設計了一個高效、高保真的3D場景交付框架L3GS,并使用3DGS作為底層數據表示。

利用高斯飛濺的獨特結構,團隊設計了一種定制的訓練方案,生成分層的3DGS。這種表示允許首先顯示一個“基礎層”,然后在上面顯示額外的“增強層”。這允許基于網絡帶寬漸進式下載場景的不同部分,同時重用以前下載的圖層。

為了能夠細粒度、可擴展地選擇視覺上重要的splat進行下載,而不是為每個splat做出單獨的決定,團隊將3D場景分割成對象,其中每個對象是一組splat。這種分組支持3D場景的交互式編輯,因此用戶可以與語義對象進行交互,而不是單獨的splats。

另外,收集用戶佩戴VR頭顯設備和在標準3DGS場景中移動的痕跡。這為用戶預測模塊提供了支持,以確定哪些可能與用戶的視口相關且重要,所以需要優先交付。

加州大學與密歇根大學研發分層3D高斯飛濺傳輸技術  第2張

L3GS的架構如圖1所示。給定一個由3DGS組成的3D場景,系統決定檢索什么是最好的splat,以便在用戶的視口中呈現內容,同時尊重估計的網絡帶寬。要做到這一點,有四個組件:

分割,分層的3D高斯splats:為了向用戶提供逐步提高的質量,創建了帶有層的3DGS場景,包括一個基礎層和幾個增強層。另外,團隊創建了更復雜的分層場景,場景可以自動分割成語義上有意義的對象,從而實現用戶交互和場景編輯。

Splat下載調度程序:給定一個3DGS場景,調度器根據每一層中每個分段對象的效用值,加上可用的網絡帶寬,來決定每一層中每個對象下載什么splats。團隊正式定義了各種情況下的優化問題,并設計了最優算法來解決它們。

用戶視口預測器:研究人員收集了用戶佩戴VR頭顯(Meta Quest 3)的痕跡,以及他們在標準3DGS場景周圍的六自由度運動。為了根據過去的歷史預測用戶未來的視口,使用線性回歸,這是因為它簡單而成功。

帶寬預測器:使用室外5G用戶的行走軌跡來模擬可變的5G網絡帶寬。為了預測可用的網絡帶寬,團隊借鑒了現有的方法。

實驗證明,L3GS優于其他基準,因為它的調度器可以有效地檢索用戶視口內的spalt。圖8顯示了合成用戶和真實用戶追蹤的主要性能結果。在前5秒,“Ours”明顯優于其他基線。對于“Sort”,不僅視覺質量較差,而且它們的選擇僅由全局顯著性評分決定,而全局顯著性評分與視圖無關。最糟糕的是,“Separate”無法完成下載,即便是最低質量的版本,導致空白的渲染圖像和初始SSIM為0。

加州大學與密歇根大學研發分層3D高斯飛濺傳輸技術  第3張

相比之下,L3GS有效地為當前視口選擇最關鍵的splats,從而實現卓越的性能。即使當基本的45ksplat“Separate”模型完全加載時(平均大約8秒),所提出方法都可以通過基于預測的未來視口(例如更接近用戶的視口)優先考慮重要的splat來實現更好的性能。

使用L3GS的分層方法,在下載所有180k splat后性能穩定下來,這大約需要30秒。性能可與“Pre-load”基線相媲美,而分層結構只有較小的損失。然而,“Sort”可以通過加載更多的splat(每60秒加載360k)而在追蹤結束時獲得更好的性能,因為它可以訪問更大的模型。關于“Separate”,盡管在相同數量的splats下,模型的視覺質量略好于“Ours”,但由于不同版本的splats沒有逐漸重疊,因此需要加載整個較大的模型并丟棄之前的模型。這個過程導致大量的帶寬浪費,導致在有限帶寬條件下,與L3GS相比SSIM更低。

加州大學與密歇根大學研發分層3D高斯飛濺傳輸技術  第4張

L3GS可以實現的最佳SSIM低于圖7所示的理想值,特別是對于圖8a所示。這是因為用戶可能會在場景中探索奇怪的位置,比如走得太近,或者試圖走到場景的邊界之外。數據收集顯示,用戶經常對漏洞和低質量部件感到好奇,從而導致場景外視口。即使是原始的預訓練3DGS模型,由于缺乏ground truth,在這種邊緣情況下都會顯示出較低的質量。團隊在圖9中提供了示例屏幕截圖。主要的收獲是,這種真實的用戶行為影響了SSIM,因為奇怪位置的SSIM往往更低,但這個問題會影響到所有方法,而不僅僅是團隊提出的方法。

由于人類行為和注意力的不可預測性,用戶視口預測本質上是不完美的。同樣,由于網絡條件的波動,帶寬預測同樣非常困難。視口預測器的平均誤差如圖16所示。

另外,L3GS的局限性包括精度視口和帶寬預測的困難。在3DGS場景中,視口預測是具有挑戰性的,因為用戶有六個自由度,包括平移和旋轉。同時,L3GS目前使用的帶寬預測模塊相對簡單,但在以往的多媒體適配工作中已經取得了效果。L3GS可以結合更復雜的預測模塊,采用自適應濾波或LSTM。

為了實時適應實際帶寬與預測帶寬不一致的情況,可以采用啟發式規則來改變下載計劃。例如,如果實際帶寬比預測的高,并且提前完成下載,則框架可以更快地重新運行調度程序并開始獲取下一組splat。未來的工作包括將不斷開發的新壓縮3DGS表示集成到框架中,在實時網絡部署原型,以及通過用戶研究來評估感知視覺質量。最后,探索多個客戶端共享瓶頸鏈接的場景,以及如何在用戶之間公平有效地調度來自3DGS場景的splat。

相關論文:L3GS: Layered 3D Gaussian Splats for Efficient 3D Scene Delivery

https://arxiv.org/pdf/2504.05517

總的來說,團隊提出的L3GS:可以創建一個有效的3D場景交付框架。團隊開發了一個訓練管道來創建分層的3DGS模型,其中場景可以進一步細分為對象,以提供細粒度的控制下載和編輯。通過對3DGS模型進行分層,并基于用戶視口和網絡帶寬創建splat調度算法,系統可以在保持高視覺質量的同時適應不同的網絡帶寬。另外,調度程序可以處理各種類型的3DGS表示。與基線相比,實驗結果顯示出更高的性能,實現了更高的平均SSIM分數和更低的開銷。