場(chǎng)景視圖合成
(中國(guó)AI網(wǎng) 2025年08月04日)場(chǎng)景視圖合成,亦即從有限的角度生成新的視圖,在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等應(yīng)用中越來(lái)越重要。與基于對(duì)象的任務(wù)不同,場(chǎng)景視圖合成處理整個(gè)環(huán)境。其中,不均勻的觀察對(duì)穩(wěn)定的渲染質(zhì)量構(gòu)成獨(dú)特的挑戰(zhàn)。為了解決這個(gè)問(wèn)題,意大利米蘭理工大學(xué)和中國(guó)科學(xué)院大學(xué)團(tuán)隊(duì)提出了一種新的方法:可渲染性場(chǎng)引導(dǎo)的高斯飛濺(RF-GS)。
所提出方法通過(guò)可渲染性域量化輸入不均勻性,引導(dǎo)偽視圖采樣增強(qiáng)視覺(jué)一致性。為了保證寬基線(xiàn)偽視圖的質(zhì)量,研究人員訓(xùn)練了一個(gè)圖像恢復(fù)模型,將點(diǎn)投影映射到可見(jiàn)光樣式。另外,驗(yàn)證的混合數(shù)據(jù)優(yōu)化策略有效地融合了偽視角和源視圖紋理信息。模擬和真實(shí)數(shù)據(jù)的對(duì)比實(shí)驗(yàn)表明,所提出方法在渲染穩(wěn)定性方面優(yōu)于現(xiàn)有的方法。

渲染3D場(chǎng)景對(duì)于虛擬現(xiàn)實(shí)/混合現(xiàn)實(shí)應(yīng)用至關(guān)重要。盡管目前的研究實(shí)現(xiàn)了高保真渲染,但對(duì)密集視圖的依賴(lài)限制了它們的實(shí)際應(yīng)用。神經(jīng)輻射場(chǎng)(NeRF)通過(guò)神經(jīng)輻射場(chǎng)表示實(shí)現(xiàn)高級(jí)目標(biāo)重建。盡管隨后的研究改進(jìn)了其泛化能力,但NeRF的訓(xùn)練和渲染成本依然是一個(gè)限制。
與NeRF的隱式3D場(chǎng)景表示不同,3D高斯飛濺利用運(yùn)動(dòng)結(jié)構(gòu)(SfM)生成一個(gè)粗糙的點(diǎn)云,用高斯橢圓表示整個(gè)場(chǎng)景,這大大減少了場(chǎng)景優(yōu)化和渲染時(shí)間。然而,3D GS在很大程度上依賴(lài)于不同的視角,并且容易在弱觀測(cè)區(qū)域過(guò)度擬合,導(dǎo)致渲染質(zhì)量顯著下降,并引入潛在的可靠性問(wèn)題。
另外,由于源圖像捕獲和場(chǎng)景訪(fǎng)問(wèn)之間的可移動(dòng)范圍差異,即使增加了拍攝密度,消除局部偽影依然具有挑戰(zhàn)性。非均勻觀測(cè)以觀測(cè)頻率低、方向覆蓋不全為特征,對(duì)穩(wěn)定的視點(diǎn)合成提出了重大挑戰(zhàn)。寬基線(xiàn)新視圖在視角和位置上與源視圖有很大不同,常常導(dǎo)致觀測(cè)弱。
從圖1可以看出,在寬基線(xiàn)條件下,非均勻觀測(cè)區(qū)域(如地面)的渲染質(zhì)量明顯低于均勻觀測(cè)區(qū)域(如最左邊的桌子),并且與窄基線(xiàn)下生成的合成視圖存在明顯差異。為了減輕非均勻輸入對(duì)3D GS模型的負(fù)面影響,意大利米蘭理工大學(xué)和中國(guó)科學(xué)院大學(xué)團(tuán)隊(duì)提出了一種可渲染性場(chǎng)引導(dǎo)的3D GS方法,如圖2所示,所述方法的核心是通過(guò)偽視圖增強(qiáng)數(shù)據(jù),增強(qiáng)模型的泛化能力。

如表1所示,團(tuán)隊(duì)將5449個(gè)視圖的評(píng)價(jià)結(jié)果作為算法性能的基本事實(shí),13個(gè)視圖的結(jié)果代表性能預(yù)測(cè)。盡管FSGS在局部評(píng)價(jià)上優(yōu)于SparseGS,但這一結(jié)論與全局評(píng)價(jià)并不匹配,說(shuō)明局部評(píng)價(jià)結(jié)果對(duì)于代表整個(gè)場(chǎng)景的渲染質(zhì)量是不可靠的。另外,全局評(píng)價(jià)表明,CoR-GS在PSNR上與Octree-GS相匹配,在SSIM和LPIPS上優(yōu)于Octree-GS。

然而,如圖6c所示,CoR-GS產(chǎn)生難以忍受的偽影,并且明顯弱于OctreeGS。結(jié)合SDP分析,CoR-GS在局部范圍內(nèi)表現(xiàn)出更好的渲染質(zhì)量和穩(wěn)定性。盡管如此,其泛化程度在此范圍內(nèi)顯著下降,表明過(guò)擬合更為嚴(yán)重。傳統(tǒng)的度量標(biāo)準(zhǔn)通常表示平均測(cè)試值,可能無(wú)法捕獲質(zhì)量波動(dòng)。
為了解決這個(gè)問(wèn)題,研究人員引入SDP作為一個(gè)度量來(lái)評(píng)估算法的穩(wěn)定性。通過(guò)使用空間統(tǒng)一的測(cè)試用例組合所有四個(gè)度量,團(tuán)隊(duì)確保了合成質(zhì)量的可靠評(píng)估。

如圖5所示,以PSNR = 25為參考線(xiàn),研究人員提出的方法減少了低質(zhì)量視圖的數(shù)量,提高了新視圖合成質(zhì)量的下界,同時(shí)保持了3D-GS的高質(zhì)量視圖分布。Octree-GS渲染的新視角在PSNR范圍內(nèi)是稀疏的,這表明渲染質(zhì)量的上界有所降低。其他方法與團(tuán)隊(duì)提出方法相比有明顯的差距。
混合數(shù)據(jù)訓(xùn)練增強(qiáng)了泛化,實(shí)現(xiàn)了最低的SDP,但犧牲了一定的渲染質(zhì)量。圖7c顯示,盡管它消除了偽影并確保了一致性,但它會(huì)導(dǎo)致過(guò)于光滑的外觀,在反射和紋理上缺乏真實(shí)感。為了緩解這種情況,團(tuán)隊(duì)使用真實(shí)數(shù)據(jù)對(duì)顏色進(jìn)行微調(diào),細(xì)化細(xì)節(jié)(圖7d)。這種方法在質(zhì)量和泛化方面都超過(guò)了基線(xiàn)。

真實(shí)世界的數(shù)據(jù)密集測(cè)試與模擬數(shù)據(jù)相比難以在真實(shí)世界中獲得,因此必須輔以定性結(jié)果來(lái)評(píng)估算法的性能。scannet++數(shù)據(jù)相對(duì)密集,因此測(cè)試數(shù)據(jù)主要量化范圍內(nèi)的視圖質(zhì)量,與整體場(chǎng)景泛化的相關(guān)性有限。表III表明RFGS的性能與標(biāo)準(zhǔn)GS相當(dāng),這表明添加的偽視圖不會(huì)干擾源視圖擬合。

結(jié)合定性結(jié)果,圖8a表明,團(tuán)隊(duì)提出的方法顯著增強(qiáng)了具有挑戰(zhàn)性的區(qū)域,沒(méi)有引入明顯的偽影或空洞,優(yōu)于其他方法。稀疏的自定義數(shù)據(jù)反映了方法在寬基線(xiàn)上的性能,并部分地代表了整個(gè)場(chǎng)景的泛化。從表III可以看出,所提出方法實(shí)現(xiàn)了最小的畸變、強(qiáng)的幾何一致性和良好的穩(wěn)定性。如圖8b所示,RF-GS可以從任何視點(diǎn)穩(wěn)定渲染,而其他方法在具有挑戰(zhàn)性的區(qū)域表現(xiàn)出難以忍受的模糊。
相關(guān)論文:Rendering Anywhere You See: Renderability Field-guided Gaussian Splatting
https://arxiv.org/pdf/2504.19261
總的來(lái)說(shuō),團(tuán)隊(duì)提出了一種利用可渲染性域來(lái)增強(qiáng)自由場(chǎng)景渲染泛化的方法。首先,引入可渲染性場(chǎng)來(lái)指導(dǎo)寬基線(xiàn)偽視圖選擇,加強(qiáng)監(jiān)督。其次,通過(guò)圖像恢復(fù)模型從點(diǎn)投影圖像生成彩色圖像,確保偽視圖中的幾何一致性和圖像質(zhì)量。最后,通過(guò)分階段高斯基元優(yōu)化混合數(shù)據(jù),平衡渲染質(zhì)量和泛化。
模擬實(shí)驗(yàn)強(qiáng)調(diào)了可泛化度量SDP的重要性,而scannet++和自定義數(shù)據(jù)集的比較表明,所提出方法在處理具有挑戰(zhàn)性的區(qū)域方面優(yōu)于以前的研究。
當(dāng)然,當(dāng)偽視圖范圍很窄時(shí),模型很難將圖像內(nèi)容與源視圖關(guān)聯(lián)起來(lái),從而導(dǎo)致邊緣的幾何模糊。因此,團(tuán)隊(duì)將考慮基于區(qū)域的訓(xùn)練,以減少恢復(fù)的不確定性。

