綜合實驗表明,Scenethesis能夠生成多樣化、真實且物理合理的3D交互場景
(中國AI網 2025年08月22日)從文本生成交互式3D場景對于虛擬現實和具身人工智能等領域至關重要。然而,現有方法面臨諸多挑戰。基于學習的方法依賴小規模室內數據集,限制了場景多樣性和布局復雜度。盡管大語言模型能夠利用多樣化的文本領域知識,但它們在空間真實性方面存在不足,常常產生違背常識的不自然物體擺放。
在一項研究中,英偉達和普渡大學團隊提出,視覺感知能夠彌補大語言模型所缺乏的真實空間指導。為此,他們提出了 Scenethesis。這是一個免訓練的代理框架將基于大語言模型的場景規劃與視覺引導的布局優化相結合。給定一個文本提示,Scenethesis首先使用大語言模型生成一個粗略布局。隨后,視覺模塊通過生成圖像指導和提取場景結構來細化該布局,以捕獲物體間關系。
接著,一個優化模塊迭代地強制執行精確的姿態對齊和物理合理性,防止物體穿透和不穩定等偽影。最后,一個評判模塊驗證空間連貫性。綜合實驗表明,Scenethesis能夠生成多樣化、真實且物理合理的3D交互場景。

從文本合成交互式3D場景對于虛擬現實和具身人工智能等領域至關重要。與生成單一場景幾何或可微分渲染基元不同,交互式3D場景合成的重點在于排列單個物體以構建真實的布局,同時保持自然的交互、功能角色和物理原理。例如,椅子應面向桌子以便就坐,小物品通常應放置在櫥柜、抽屜和架子內部而不發生穿透。捕獲這種空間關系對于生成真實場景至關重要,它可以令虛擬環境反映真實世界的結構和連貫性。
傳統的交互式場景生成方法通常屬于勞動密集型且難以擴展;而程序化方法生成的場景過于簡化,無法捕獲現實世界中多樣的空間關系。近年來,基于深度學習的場景生成方法,如自回歸模型和擴散方法,已能實現3D布局的端到端生成。然而,它們依賴于像3D-FRONT這樣規模小、局限于室內環境,并且常常包含碰撞的帶物體標注數據集。所述數據集主要建模大型家具布局,忽略了小物體及其功能交互。
大語言模型LLM的出現通過利用文本中的常識知識(例如基于人類意圖哪些物體應該共現)擴展了場景多樣性。然而,它們缺乏視覺感知,無法準確再現真實世界的空間關系,導致物體擺放不真實,忽視了功能角色、人類意圖和物理約束。如圖2所示,LLM生成的場景經常出現物體方向錯誤(例如椅子朝向櫥柜)和位置錯誤(例如櫥柜靠窗放置);小物體被限制在預定義的位置(例如只能在櫥柜頂部而不能在內部)。這種真實性的缺失破壞了物體功能性,削弱了空間連貫性,阻礙了結構一致性,最終使得LLM生成的場景在實際可用性和交互性方面不實用。

基于視覺基礎模型的見解——模型編碼了緊湊的空間信息并生成反映真實世界布局的連貫場景分布——英偉達和普渡大學團隊提出了 Scenethesis。這是一個免訓練的代理框架,它集成了基于LLM的場景規劃和視覺引導的空間優化。在缺乏真實世界感知能力的LLMs之上,Scenethesis強制執行基于視覺的空間約束以增強真實感和物理合理性。
給定文本提示,Scenethesis使用LLM進行粗略布局的推理,使用視覺模塊進行布局優化、深度估計和結構提取,并采用一種新穎的優化方法,通過語義對應匹配和基于符號距離場的物理約束,迭代地將物體擺放與視覺先驗對齊,確保無碰撞且穩定地融入數字環境。最后,一個評判模塊驗證空間連貫性。定量和定性結果表明,Scenethesis在場景多樣性(生成室內外場景)、布局真實性和物理合理性方面優于SOTA方法。
相關的流程如下:
Scenethesis根據用戶提示生成空間真實、物理合理的交互式3D環境。其流程概覽如圖3所示,包含四個關鍵階段:
LLM模塊:起草粗略的場景規劃。
視覺模塊:利用視覺指導和結構提取優化布局。
物理感知優化模塊:提煉先驗知識并調整物體擺放以實現空間連貫性和物理合理性。
場景評判模塊:驗證空間一致性。
粗略場景規劃
Scenethesis 支持簡單提示(例如,“日落時寧靜的海灘”)以實現靈活的場景生成,或支持詳細提示以實現可控的場景生成(例如,描述詳細空間關系的場景規劃)。對于簡單提示,LLM通過對用戶輸入進行推理來生成粗略的場景規劃。它首先解讀提示,審查可用3D數據庫中的所有物體類別,選擇通常關聯的物體,然后生成一個描述粗略空間關系的上采樣提示,如圖3所示。當給定詳細提示時,LLM檢查數據庫中是否存在所有指定物體,推斷相關物體類別,并跳過提示上采樣過程。
在選定的物體中,LLM根據先前研究確定一個錨定物體。錨定物體作為中心參考點,占據除地面之外最高的空間層級。然后,LLM建立一個粗略的空間層級結構,將物體相對于錨定物體定位,并將這些關系納入上采樣提示中。例如,在一個舒適的客廳中,沙發作為錨定物體位于中心,而書架則放置在背景中,靠墻對齊。其他物體,如咖啡桌或椅子,則被放置在沙發的前面或旁邊。
布局視覺優化
Scenethesis的一個關鍵見解是:圖像生成模型通過學習大規模圖像數據集中的常見共現和空間排列,內在地編碼了物體功能和空間關系。視覺模塊通過以下步驟優化粗略布局:
圖像指導:生成圖像以細化空間關系,確保真實性和物體功能性。
場景圖生成:分割物體,估計深度和3D邊界框(3DBB),并構建一個編碼物體間關系的圖以建立初始布局。
資源檢索:選擇3D資源和環境貼圖用于最終場景組合。
圖像生成 :視覺模塊將上采樣提示優化為視覺結構化的場景表示。生成的圖像作為分割、深度估計和資源檢索的基礎。
場景圖生成 :利用視覺基礎模型,視覺模塊構建一個場景圖,使用3D邊界框定位物體,并識別結構組件,包括錨定物體、父物體和子物體(見圖3)。為了初始化資源的5自由度位姿,視覺模塊使用語義線索分割物體,估計深度圖,并將其投影到3D點云中。然而,由于遮擋、有限視角和分割誤差,裁剪后的圖像指導可能無法完全顯示物體,導致3D邊界框估計存在偏差,而這需要在后續階段調整位姿。場景圖為下一階段優化中的迭代5自由度位姿調整奠定了基礎。由于Scenethesis專注于地面層級的物體布局,背景元素(例如墻壁裝飾)由檢索到的環境貼圖在視覺上定義。
資源檢索:不同于現有的3D物體生成和重建技術,它們雖能產生逼真的視覺效果,但存在偽影和幾何不一致性問題。它們缺乏可編輯網格、UV貼圖和可分解的PBR材質,使其與標準生產流程不兼容。為了解決所述限制,Scenethesis采用基于檢索的方法選擇資源,確保下游應用所需的幾何保真度和可編輯性。團隊從Objaverse構建了一個高質量資源子集(類似于Holodeck),并補充了自定義的環境貼圖數據集。在最后一步,檢索3D資源和環境貼圖以組合成視覺連貫的場景。

物理感知優化
直接根據圖像指導的估計點云放置3D資源面臨重大挑戰:
現實場景中的遮擋導致3D點云不完整,從而產生物體朝向、尺度和位置誤差。
檢索到的資源與圖像指導在紋理和形狀上的差異使得精確位姿估計困難。
為了克服所述問題,Scenethesis采用了一種物理感知優化,并由魯棒的語義特征匹配和符號距離場提供支持。此優化過程迭代地細化物體位姿,以確保位姿對齊和物理合理性。
為了解決由遮擋、分割或資源不匹配引起的位姿估計誤差,采用RoMa的稠密對應匹配,利用語義空間特征來應對遮擋和部分視圖的魯棒性。圖像指導與檢索資源之間在紋理和形狀上不可避免的差異,通過關注高層語義而非底層細節來緩解。對于每個物體,在2D空間中匹配渲染物體與圖像指導中部分可見區域的N個對應點。然后,最小化這N個對應點在2D和3D空間位置上的均方誤差(MSE)損失,通過反向傳播梯度來優化尺度、平移和直立旋轉,如圖3所示。
真實世界的3D場景遵循物理約束,確保物體在接觸面上保持穩定且無碰撞。然而,僅靠與圖像指導的位姿對齊并不能保證物理合理性——由于形狀差異和場景理解誤差,物體可能相交、漂浮或下沉。見圖9(b)示例。現有方法使用3D邊界框(近似物體幾何,這過度簡化了形狀并導致簡化的物體間關系,并導致場景多樣性受限,特別是在物體間關系復雜的緊湊空間中。
為了解決所述挑戰,使用符號距離場取代基于3D邊界框的近似方法,實現精確的物體幾何表示,用于準確的碰撞檢測和穩定性約束。物理感知優化過程迭代地構建基于SDF的物理結構,遵循場景圖層級:首先處理錨定物體以建立穩定基礎,然后是父物體和子物體。該優化結合了碰撞約束和穩定性約束。由于檢索到的3D資源是直立的,它們的旋轉限制在方位角調整范圍內。
場景評判
迭代優化物體擺放后,一個由GPT-4o驅動的場景評判器評估生成的3D場景與布局優化階段產生的圖像指導之間的空間對齊度,確保物體間關系的一致性。為了評估這種對齊度,團隊設計了三個指標:
物體類別準確度:比較生成場景與圖像指導中的物體類別。
物體朝向對齊度:衡量物體朝向與參考布局的匹配程度。
整體空間連貫性:捕獲場景布局的整體一致性。
每個指標都歸一化在0(最低)到1(最高)之間。如果任何指標低于預設閾值,場景評判器會觸發重新規劃步驟。

圖6展示了Scenethesis生成的各種場景,在室內外環境中均表現出高保真度和多功能性。與基于LLM的方法相比,Scenethesis通過利用圖像指導和物理感知優化,在真實感和物理合理性方面表現出色,有效捕獲了真實世界的空間復雜性和多樣性。

圖7展示了根據同一文本提示生成的各種3D布局,突出了多樣化的資源選擇和空間排列。Scenethesis支持簡單和詳細提示——簡單提示支持靈活、用戶友好的生成,而詳細提示允許可控的3D場景生成。

Holodeck將小物體的放置限制在較大物體頂部的預定義區域。相比之下,Scenethesis支持細粒度定位,將小物體放置在支撐結構(例如架子、推車)的不同層級上,如圖8所示。缺乏視覺感知的LLM方法難以實現這種空間真實度。

物理感知優化包含三個組件:位姿對齊、碰撞約束和穩定性約束。團隊進行消融研究以評估它們的有效性。結果如表3所示,位姿對齊顯著提高了空間一致性,而碰撞和穩定性約束則增強了物理合理性,使場景可用于仿真。圖9展示了定性可視化結果。
相關論文:Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation
https://arxiv.org/pdf/2505.02836
總的來說,Scenethesis是一個免訓練的代理框架,通過利用基于LLM的粗略場景規劃、視覺引導的布局優化以及用于物體位置調整的物理感知優化,來生成高保真的交互式3D場景。一個場景評判模塊確保了空間連貫性。實驗結果表明,它在布局連貫性、空間真實性和合理性方面顯著優于SOTA基線方法。
不過,所述方法受限于檢索數據庫,因為生成式3D方法目前尚無法處理關節物體。未來生成式3D技術的進步若能實現關節物體的合成,將有望克服這一限制,從而增強場景多樣性。

