的4D Gaussian Splatting

中國AI網 2025年04月22日)動態場景的新視圖合成在增強現實和虛擬現實等各種應用中變得越來越重要。在一項研究中,韓國首爾大學團隊提出了一種全新的4D Gaussian Splatting(4DGS)算法,并用于單目視頻中的動態場景。

為了過擬合問題,研究人員引入了一種不確定性感知的正則化,以識別具有少量觀測值的不確定區域,并基于擴散模型和深度平滑選擇性地在相關區域施加額外的先驗。所述方法不僅提高了新視圖合成的性能,又提高了訓練圖像重建的質量。

團隊同時確定了快速移動動態區域中4DGS的初始化問題,亦即SfM算法無法提供可靠的3D landmark。為了在所述區域中初始化高斯基元,他們提出了一種使用估計深度圖和場景流的動態區域密度化方法。實驗表明,這一解決方案提高了4DGS視頻重建的性能,并且在few-shot靜態場景重建中同樣可以達到相當出色的效果。

4DGS-Wild:單目視頻動態場景的不確定性感知高斯潑濺重建  第1張

動態新視圖合成(DVS)旨在從捕獲的視頻中重建動態場景,并為視點和時間步長的任意新組合生成逼真的幀。隨著增強現實和虛擬現實技術的快速發展,這項任務已成為3D視覺領域的一個重要研究領域。

早期的DVS研究主要依賴于神經輻射場,而現在則更多集中在3DGS。最近的研究已經擴展了3DGS,以考慮動態場景中額外的時間維度。這一方法稱為4DGS。

盡管4DGS模型取得了成功,但它們的適用性依然主要局限于受控和專用環境。大多數現有模型都是在多視圖視頻設置下開發和測試。有數種方法可以解決單目視頻設置,但它們依然是受控,并且無法滿足in the wild場景。例如保持多視圖特性,亦即camera捕獲圍繞緩慢移動的對象的寬弧。

另外,HyperNeRF依賴于不切實際的訓練測試分割,從相同的視頻軌跡中采樣,這使得任務更接近視頻插值,而不是真正的新視圖合成。

在研究中,韓國首爾大學團隊關注更自然、真實的單目視頻,其中單個手持攝像頭在快速移動的對象周圍移動。

隨意錄制的單目視頻往往缺乏足夠的多視角信息,4DGS算法容易對真實場景中的訓練幀進行過擬合。為了解決這個問題,可以應用正則化技術來為未見視圖提供額外的先驗。

然而,正則化技術通常涉及一個平衡問題:盡管它們在測試過程中有效地提高了新視圖合成性能,但它們固有地犧牲了訓練圖像的重建精度。由于重建精度和新視圖合成質量在團隊的目標任務中同樣重要,所以直接應用正則化技術所造成的權衡不可取。

在研究中,研究團隊用一個簡單而有效的解決方案來解決這個平衡問題:不確定性感知正則化。

4DGS-Wild:單目視頻動態場景的不確定性感知高斯潑濺重建  第2張

首先,根據每個高斯原語對訓練圖像渲染的貢獻來量化其不確定性。然后,采用α-混合方法對未見視圖構建二維不確定性圖。在擴散和深度平滑先驗的指導下,有選擇地將正則化應用于不確定區域,而訓練數據已經提供足夠重建細節的低不確定性區域則不正則化,如圖1所示。

這種方法在訓練和測試性能之間取得了更好的平衡,實現了合適的性能。但在涉及快速運動的現實世界場景中,特別是在隨意錄制的視頻中,4DGS在初始化方面依然面臨相當大的挑戰。

基于GS的高斯基元初始化算法是利用SfM獲得的點云來初始化高斯基元。然而,SfM很難重建動態區域,特別是快速運動的區域,它們通常被視為噪點,而不初始化區域的原語。

這種不完整的初始化破壞了訓練,導致靜態區域中的原語被反復克隆和分割,以試圖填充動態區域,而這可能導致原語數量過多,有時會出現內存不足的問題。

為了解決這一限制,團隊提出了一種動態區域致密化技術,在動態區域中初始化額外的高斯原語。

相關論文:4D Gaussian Splatting in the Wild with Uncertainty-Aware Regularization

總的來說,團隊主要提出了一種新的4DGS訓練框架,目標是從隨意記錄的單目誰想投捕獲的動態場景。不確定性感知正則化,結合擴散和深度平滑先驗,有效地提高了新視圖合成性能,同時保持了訓練圖像的重建質量。

另外,研究人員通過引入動態區域密度來解決快速移動場景中高斯原語的初始化挑戰。所述方法證明了在動態場景重建和少量靜態場景重建中,性能優于基線方法。他們通過廣泛的實驗進行了詳細的分析,并相信這項研究可以為領域提供有價值的見解。

當然,在隨意錄制單目視頻的新視圖合成性能依然落后于多視圖或更簡單的數據集,這突出了未來研究的潛在改進領域。同時,正則化技術依賴于使用二維不確定性映射的圖像級正則化,而未來的研究可以通過在高斯原語水平上加入正則化來增強這一點,以直接利用每個高斯原語的不確定性。

同時,動態區域致密化沒有考慮原始初始化的時間一致性,但這個問題可以通過集成長期追蹤算法來解決。