查看引用/信息源請點(diǎn)擊:中國AI網(wǎng)

InstaInpaint相比先前方法實(shí)現(xiàn)了1000倍的速度提升

中國AI網(wǎng) 2025年10月27日)3D場景重建技術(shù)的最新進(jìn)展使得在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)中的實(shí)時(shí)瀏覽成為可能。為了支持交互式操作(例如移動(dòng)或編輯物體)以提升沉浸感,業(yè)界提出3D場景修復(fù)方法以用于修復(fù)或補(bǔ)全改變后的幾何結(jié)構(gòu)。然而,當(dāng)前的方法依賴于耗時(shí)且計(jì)算密集的優(yōu)化過程,這使得它們難以用于實(shí)時(shí)或在線應(yīng)用。

在一項(xiàng)研究中,上海交通大學(xué),加利福尼亞大學(xué)默塞德分校,新加坡科技設(shè)計(jì)大學(xué)團(tuán)隊(duì)提出了InstaInpaint。這是一個(gè)基于參考的前饋框架,能在0.4秒內(nèi)根據(jù)2D修復(fù)提案生成3D場景修復(fù)結(jié)果。研究人員開發(fā)了一種自監(jiān)督的掩碼微調(diào)策略,使得能夠在大規(guī)模數(shù)據(jù)集上訓(xùn)練定制的大型重建模型(LRM)。

通過大量實(shí)驗(yàn),團(tuán)隊(duì)分析并確定了幾個(gè)能夠提升泛化能力、紋理一致性和幾何正確性的關(guān)鍵設(shè)計(jì)。InstaInpaint相比先前方法實(shí)現(xiàn)了1000倍的速度提升,同時(shí)在兩個(gè)標(biāo)準(zhǔn)基準(zhǔn)測試中保持了最先進(jìn)的性能。另外,研究人員展示了InstaInpaint能夠很好地泛化到靈活的下游應(yīng)用,如物體插入和多區(qū)域修復(fù)。

上海交大等團(tuán)隊(duì)提出3D場景實(shí)時(shí)修復(fù)方法InstaInpaint  第1張

神經(jīng)重建技術(shù)的最新進(jìn)展實(shí)現(xiàn)了虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)中的照片級真實(shí)感和實(shí)時(shí)渲染,使用戶能夠在真實(shí)世界環(huán)境的數(shù)字孿生中自由導(dǎo)航。然而,僅瀏覽而無法與數(shù)字內(nèi)容進(jìn)行有意義的交互缺乏實(shí)際應(yīng)用價(jià)值,這促使人們對操縱和編輯重建后的3D場景的興趣日益增長。

由于現(xiàn)有框架在編輯前都依賴于基于優(yōu)化方法重建的場景,很直觀地會(huì)想到設(shè)計(jì)同樣基于優(yōu)化的編輯算法。遺憾的是,這種設(shè)計(jì)選擇導(dǎo)致操作時(shí)間冗長,帶來難以忍受的等待時(shí)間和不可行的資源需求。有的方法通過基于參考的算法設(shè)計(jì)緩解了執(zhí)行時(shí)間問題:首先生成一張2D參考圖像,然后通過將外觀傳播到其他視圖來實(shí)現(xiàn)3D編輯。然而,它們?nèi)匀恍枰磺袑?shí)際的計(jì)算時(shí)間,并且用2D外觀來規(guī)范3D幾何形成了一個(gè)不適定問題,其中手工設(shè)計(jì)的啟發(fā)式方法常常效果不佳并導(dǎo)致偽影。

為了解決執(zhí)行速度問題,一個(gè)自然的解決方案是利用大型重建模型(LRM),它們可以在不到一秒的時(shí)間內(nèi)從前饋方式從稀疏視圖圖像生成3D幾何。通過從大規(guī)模3D場景數(shù)據(jù)中學(xué)習(xí),LRM即使在未見過的數(shù)據(jù)上也能產(chǎn)生高質(zhì)量和高保真度的重建結(jié)果。然而,LRM要求輸入圖像呈現(xiàn)一致的3D信息,并利用跨視圖對應(yīng)關(guān)系求解幾何。

上海交大等團(tuán)隊(duì)提出3D場景實(shí)時(shí)修復(fù)方法InstaInpaint  第2張

圖3展示了當(dāng)前最先進(jìn)的擴(kuò)散模型(即MVInpainter)生成的跨視圖3D一致性不足以讓LRM求解出合理的幾何,導(dǎo)致明顯的模糊。另外,多視圖擴(kuò)散模型引入了巨大的計(jì)算時(shí)間開銷,這與實(shí)時(shí)3D修復(fù)目標(biāo)相沖突。相關(guān)觀察結(jié)果促使上海交通大學(xué),加利福尼亞大學(xué)默塞德分校,新加坡科技設(shè)計(jì)大學(xué)團(tuán)隊(duì)開發(fā)一種單階段、端到端的方法,學(xué)習(xí)在LRM內(nèi)部構(gòu)建3D幾何。

在一項(xiàng)研究中,上海交通大學(xué),加利福尼亞大學(xué)默塞德分校,新加坡科技設(shè)計(jì)大學(xué)團(tuán)隊(duì)提出了InstaInpaint,這是LRM的一個(gè)新變體,專門用于同時(shí)實(shí)現(xiàn)前饋重建和編輯。

給定一組與3D一致的2D掩碼配對的圖像,以及其中一個(gè)經(jīng)過修復(fù)并作為參考視圖的視圖,InstaInpaint預(yù)測每像素的高斯飛濺(GS)參數(shù)來重建場景。對于跨視圖可見的像素,該模型仍然像其他LRM一樣求解幾何。同時(shí),模型學(xué)習(xí)從周圍上下文中識(shí)別被標(biāo)記為參考像素(這些像素沒有來自其他視圖的幾何線索)的幾何。例如,同一平面上擴(kuò)展的幾何應(yīng)具有平滑的深度過渡,而插入的物體應(yīng)具有清晰的分離并位于背景前方。

由于缺乏同時(shí)提供以下內(nèi)容的大規(guī)模數(shù)據(jù)集,訓(xùn)練這樣的模型具有挑戰(zhàn)性:(a) 帶有camera姿態(tài)的多視圖圖像,(b) 物體被物理移除前后的圖像對,以及 (c) 被移除物體的精確掩碼。因此,研究人員設(shè)計(jì)了一種自監(jiān)督的掩碼微調(diào)方案,利用符合(a)的大規(guī)模數(shù)據(jù)集,同時(shí)規(guī)避了對(b)和(c)的需求。

在這項(xiàng)研究中,團(tuán)隊(duì)表明獲得有意義的訓(xùn)練掩碼是最關(guān)鍵的設(shè)計(jì)。通過用灰色像素掩蓋編輯區(qū)域,可以迫使模型忽略編輯前的外觀并直接產(chǎn)生編輯后的結(jié)果。他們?nèi)斯?chuàng)建了三種類型的掩碼:使用現(xiàn)成視頻分割模型的跨視圖一致物體掩碼、使用LRM自預(yù)測深度的跨視圖一致幾何掩碼,以及沒有跨視圖一致性的隨機(jī)采樣圖像掩碼。

對于每個(gè)訓(xùn)練樣本,從場景中二次采樣幾幀作為InstaInpaint的輸入視圖,而將其他幀留作候選監(jiān)督視圖。選擇一個(gè)輸入視圖作為參考視圖,而其余視圖中的編輯區(qū)域用灰色像素掩蓋。InstaInpaint將掩蓋的輸入視圖、參考視圖和掩碼都作為輸入。然后,網(wǎng)絡(luò)進(jìn)行端到端訓(xùn)練。

上海交大等團(tuán)隊(duì)提出3D場景實(shí)時(shí)修復(fù)方法InstaInpaint  第3張

研究人員在兩個(gè)標(biāo)準(zhǔn)的3D修復(fù)基準(zhǔn)測試上進(jìn)行了大量實(shí)驗(yàn),包含多樣且具有挑戰(zhàn)性的真實(shí)世界場景。圖2強(qiáng)調(diào)InstaInpaint在速度和質(zhì)量兩個(gè)軸上都達(dá)到了最先進(jìn)的性能。團(tuán)隊(duì)同時(shí)對掩碼策略和編碼設(shè)計(jì)的關(guān)鍵設(shè)計(jì)選擇進(jìn)行了消融研究。

上海交大等團(tuán)隊(duì)提出3D場景實(shí)時(shí)修復(fù)方法InstaInpaint  第4張

與最先進(jìn)方法的比較。 如表1和圖6所示,InstaInpaint在數(shù)量和質(zhì)量上都優(yōu)于最先進(jìn)的方法。與基于優(yōu)化的方法相比,InstaInpaint以前饋方式重建場景,獲得了1000倍的速度提升。InstaInpaint同時(shí)在修復(fù)邊界處提供了更平滑的過渡。

與基于LRM的方法的比較。 如表2所示,InstaInpaint在FID/KID相關(guān)分?jǐn)?shù)上優(yōu)于兩個(gè)基于LRM的基線方法。如圖7所示,InstaInpaint比兩個(gè)提出的基于LRM的基線產(chǎn)生了更清晰、幾何更一致的結(jié)果。

上海交大等團(tuán)隊(duì)提出3D場景實(shí)時(shí)修復(fù)方法InstaInpaint  第5張

為了更好地評估基于參考的方法對所提供的參考圖像的遵循程度,提供真實(shí)圖像作為參考,并在像素級指標(biāo)上進(jìn)行評估。如表3所示,InstaInpaint相比其他基于參考的方法顯示出競爭優(yōu)勢。

上海交大等團(tuán)隊(duì)提出3D場景實(shí)時(shí)修復(fù)方法InstaInpaint  第6張

參考圖像的選擇是基于參考的修復(fù)方法的關(guān)鍵因素。如圖8所示,Infusion在給定場景中心作為參考時(shí)表現(xiàn)良好,但在參考圖像接近場景邊緣時(shí)會(huì)產(chǎn)生明顯的偽影。InstaInpaint在兩種情況下都表現(xiàn)穩(wěn)定。

另外,InstaInpaint可以通過使用文本驅(qū)動(dòng)的擴(kuò)散修復(fù)器提供2D參考,輕松擴(kuò)展到文本驅(qū)動(dòng)的物體插入任務(wù)。圖9顯示基線方法無法預(yù)測正確的幾何形狀,并將修復(fù)后的紋理像貼紙一樣粘貼到背景上,而InstaInpaint能夠準(zhǔn)確推斷出完整修復(fù)物體的幾何形狀并無縫地將其融入原始場景。同時(shí),圖10表明即使有多個(gè)不相交的修復(fù)區(qū)域,InstaInpaint也能產(chǎn)生一致的修復(fù)場景。

表4對三種多視圖掩碼進(jìn)行了消融研究。引入幾何掩碼和隨機(jī)圖像掩碼減輕了物體偏差,并有效縮小了訓(xùn)練-驗(yàn)證差距,產(chǎn)生了更好的LPIPS、FID和KID分?jǐn)?shù)。盡管使用或不使用物體掩碼進(jìn)行訓(xùn)練產(chǎn)生的量化指標(biāo)相似,但可以觀察到物體掩碼顯著增強(qiáng)了插入實(shí)例的幾何一致性,如圖11所示。這可以歸因于物體掩碼強(qiáng)大的跨視圖一致性,約束模型保持剛性的物體結(jié)構(gòu)。沒有物體掩碼訓(xùn)練會(huì)導(dǎo)致前景實(shí)例(傾斜的交通錐和扭曲的小黃人)的幾何形狀更容易變形。

上海交大等團(tuán)隊(duì)提出3D場景實(shí)時(shí)修復(fù)方法InstaInpaint  第7張

當(dāng)然,盡管InstaInpaint在靜態(tài)場景修復(fù)中產(chǎn)生了高質(zhì)量的結(jié)果,但在處理具有快速移動(dòng)物體的動(dòng)態(tài)場景時(shí),其性能會(huì)下降。InstaInpaint需要四張輸入圖像進(jìn)行稀疏視圖重建,這可能導(dǎo)致視圖覆蓋范圍有限。

相關(guān)論文:InstaInpaint: Instant 3D-Scene Inpainting with Masked Large Reconstruction Model

https://arxiv.org/pdf/2506.10980

總的來說,團(tuán)隊(duì)提出的InstaInpaint是一個(gè)基于參考的前饋框架,可在0.4秒內(nèi)根據(jù)2D修復(fù)提案生成3D場景修復(fù)結(jié)果。通過利用自監(jiān)督的掩碼微調(diào)策略,InstaInpaint有效地將大型重建模型(LRM)適配用于3D修復(fù)。InstaInpaint在保持兩個(gè)標(biāo)準(zhǔn)基準(zhǔn)測試中最先進(jìn)性能的同時(shí),相比先前方法實(shí)現(xiàn)了1000倍的速度提升,并在多種編輯應(yīng)用中展現(xiàn)出強(qiáng)大的靈活性。