可控制的3D場景生成

中國AI網(wǎng) 2025年06月05日)可控制的3D場景生成在虛擬現(xiàn)實領(lǐng)域有著廣泛的應(yīng)用。場景圖為應(yīng)用提供了合適的數(shù)據(jù)表示。然而,當(dāng)前基于圖形的場景生成方法僅限于基于文本的輸入,對靈活的用戶輸入的適應(yīng)性不足,阻礙了精確控制對象幾何形狀的能力。

為了解決這個問題,北京大學(xué),北京航空航天大學(xué),北京數(shù)原數(shù)字化城市研究中心,Theta Labs和慕尼黑工業(yè)大學(xué)團(tuán)隊提出了MMGDreamer。這是一個用于場景生成的雙分支擴(kuò)散模型,包含一個新的混合模態(tài)圖、視覺增強(qiáng)模塊和關(guān)系預(yù)測器。

混合模態(tài)圖允許對象節(jié)點集成文本模態(tài)和可視化模態(tài),節(jié)點之間的關(guān)系是可選的。它增強(qiáng)了對靈活用戶輸入的適應(yīng)性,并能夠在生成的場景中對對象的幾何形狀進(jìn)行細(xì)致的控制。

視覺增強(qiáng)模塊通過使用文本嵌入構(gòu)建視覺表示來豐富純文本節(jié)點的視覺保真度。另外,關(guān)系預(yù)測器利用節(jié)點表示來推斷節(jié)點之間的缺失關(guān)系,從而產(chǎn)生更連貫的場景布局。大量的實驗結(jié)果表明,MMGDreamer表現(xiàn)出對對象幾何形狀的優(yōu)越控制,實現(xiàn)了最先進(jìn)的場景生成性能。

中外多機(jī)構(gòu)聯(lián)合研發(fā)MMGDreamer模型實現(xiàn)幾何可控3D場景生成  第1張

深度生成模型開啟了人工智能生成內(nèi)容的新時代,推動了自然語言生成、視頻合成和3D生成的發(fā)展。可控場景生成是指根據(jù)輸入提示生成逼真的3D場景,允許對場景中的特定對象進(jìn)行精確控制和調(diào)整。它廣泛應(yīng)用于虛擬現(xiàn)實,提供沉浸式體驗并增強(qiáng)決策過程。

其中,場景圖作為一個強(qiáng)大的工具,通過簡潔地抽象場景上下文和對象之間的相互關(guān)系,實現(xiàn)直觀的場景操作和生成。盡管基于檢索的、半生成的和完全生成的方法在基于圖的可控場景生成方面取得了重大進(jìn)展,但它們主要依賴于文本描述來構(gòu)建輸入場景圖。另外,場景圖中的每個節(jié)點僅包含對象類別的文本信息,限制了其對靈活用戶輸入的適應(yīng)性。

為了解決所述限制,北京大學(xué),北京航空航天大學(xué),北京數(shù)原數(shù)字化城市研究中心,Theta Labs和慕尼黑工業(yè)大學(xué)團(tuán)隊提出了MMGDreamer。這是一種設(shè)計用于處理多模態(tài)信息的雙分支擴(kuò)散模型,并將一種新的混合模態(tài)圖作為關(guān)鍵組件。

如圖1所示,MMG的節(jié)點可以用三種方式表示:文本、圖像或兩者的組合。另外,可以根據(jù)用戶輸入選擇性地提供或省略節(jié)點之間的邊。這種靈活的圖形結(jié)構(gòu)支持五種類型的用戶輸入。它顯著增強(qiáng)了對不同用戶需求的適應(yīng)性,在生成的場景中實現(xiàn)對對象幾何形狀的精確控制。

為了充分利用MMG的功能,MMGDreamer具有兩個關(guān)鍵模塊:視覺增強(qiáng)模塊和關(guān)系預(yù)測器。當(dāng)輸入場景圖的節(jié)點只包含文本信息時,視覺增強(qiáng)模塊使用文本嵌入來構(gòu)建這些節(jié)點的視覺表示。通過結(jié)合與文本相關(guān)的視覺先驗,所述方法豐富了節(jié)點的視覺內(nèi)容,增強(qiáng)了對生成對象的幾何控制。

關(guān)系預(yù)測器是一種基于GCN的關(guān)系分類器,它利用場景中的先驗知識和節(jié)點表示,在缺乏顯式關(guān)系信息的情況下推斷節(jié)點之間的關(guān)系。通過捕獲全局和局部場景對象關(guān)系,模塊確保生成更連貫和上下文適當(dāng)?shù)膱鼍安季帧?/p>

中外多機(jī)構(gòu)聯(lián)合研發(fā)MMGDreamer模型實現(xiàn)幾何可控3D場景生成  第2張

如圖2所示。MMG是一種新穎的圖結(jié)構(gòu),其中節(jié)點可以選擇攜帶文本或視覺信息,從而更有效地適應(yīng)靈活的用戶輸入。MMGDreamer首先利用CLIP和嵌入層對MMG進(jìn)行編碼,生成潛在混合模態(tài)圖(LMMG)。然后,應(yīng)用視覺增強(qiáng)模塊在LMMG的節(jié)點中構(gòu)建視覺信息,生成視覺增強(qiáng)圖。接下來,利用關(guān)系預(yù)測器預(yù)測節(jié)點之間缺失的邊,形成混合增強(qiáng)圖。最后,利用Graph Encoder對場景內(nèi)部的關(guān)系進(jìn)行建模,并采用雙分支擴(kuò)散模型生成相應(yīng)的布局和形狀,從而合成三維室內(nèi)場景。

研究人員利用場景級保真度(FID和KID)和平均場景圖一致性(mSG)來定量評估MMGDreamer中不同模塊的有效性,如表3所示。

可以觀察到,與基線(第一行)相比,帶有VEM的配置(第二行)顯示FID和KID顯著降低,表明VEM增強(qiáng)了場景生成的保真度。當(dāng)引入RP模塊(第三行)時,mSG有顯著的改進(jìn),表明RP有效地預(yù)測對象之間的關(guān)系,從而產(chǎn)生更連貫的場景布局。很明顯,包括VEM和RP在所有指標(biāo)都實現(xiàn)了最佳性能,突出了模塊在產(chǎn)生高質(zhì)量場景生成方面的互補(bǔ)優(yōu)勢。

相關(guān)論文:MMGDreamer: Mixed-Modality Graph for Geometry-Controllable 3D Indoor Scene Generation

總的來說,MMGDreamer是一個用于幾何可控3D室內(nèi)場景生成的雙分支擴(kuò)散模型,并利用了一種集成了文本和視覺模式的新型混合模態(tài)圖。所述方法通過視覺增強(qiáng)模塊和關(guān)系預(yù)測器增強(qiáng),提供對對象幾何形狀的精確控制,并確保連貫的場景布局。大量實驗表明,MMGDreamer顯著優(yōu)于現(xiàn)有方法,在場景保真度和對象幾何可控性方面取得了最先進(jìn)的結(jié)果。