一種從單個圖像重建完整3D場景的新方法
(中國AI網 2025年06月19日)3D場景重建對于虛擬現實等應用至關重要。傳統的3DGS技術依賴于從多個視點捕獲的圖像來實現最佳性能,但這種依賴性限制了它們在只有單個圖像可用的情況下的使用。在這項研究中,澳大利亞國立大學團隊介紹了FlashDreamer,一種從單個圖像重建完整3D場景的新方法,并大大減少了對多視圖輸入的需求。
所以出方法利用預訓練的視覺語言模型為場景生成描述性提示,指導擴散模型從不同角度生成圖像,然后將其融合形成有凝聚力的3D重建。大量的實驗表明,所提出方法有效且穩健地將單圖像輸入擴展到全面的3D場景中,無需進一步訓練即可擴展單目3D重建能力。

3D場景重建從多個輸入圖像生成場景的三維表示。這一計算機視覺中的基本任務為虛擬現實/增強現實等應用提供了空間表示。最近,3DGS作為一種3D表示方法得到了普及,它可以以最小的輸入提供高質量的實時結果。然而,3DGS通常依賴于來自不同視點的多幅圖像來獲得最佳性能,這限制了其對單幅圖像場景的適應性。
Flash3D通過支持從單個圖像進行3D重建來解決這個問題。然而,當從其他角度觀察這種重建時,由于原始圖像中信息不足,通常會出現偽影。例如,旋轉視點通常會顯示沿邊界的空白區域或工件,因為這些區域位于初始輸入之外。為了解決所述限制,可以使用像擴散模型這樣的生成模型來合成新的視點。然而,擴散模型在生成同一場景的多幅圖像時經常面臨一致性問題。例如,生成的圖像之間的重疊區域可能不同,從而導致不一致。
針對所述問題,澳大利亞國立大學團隊介紹了FlashDreamer,這種新穎的方法旨在完成場景的3DGS,用Flash3D初始化,并通過從預定義的角度生成視圖。FlashDreamer通過使用中間3DGS表示對齊3D空間中的重疊區域來解決一致性問題。另外,視覺語言模型(VLM)為增強擴散過程提供了補充指導。
團隊通過定性和定量分析檢查了影響場景生成質量的因素。定性分析考慮了(i)旋轉角度,(ii)擴散模型,以及(iii)提示多樣性。定量地,使用Frechet ’ Inception Distance (FID)和CLIP Score在旋轉角度評估質量,目標是闡明驅動高質量場景生成的關鍵參數。
他們使用Flash3D進行高效的場景重建,并結合預訓練的Stable Diffusion-v2模型來擴展多個視點的場景圖像。為了提高擴散模型的生成精度們在LLaMA-3.1-8B中輸入了“請簡要描述場景”的引導提示。然后,視覺語言模型生成描述,作為擴散模型的提示符。
最后,采用標準的3DGS管道對三維場景進行重構。由于時間限制,實驗是在Replica數據集的一個子集進行。所述子集包含18個高度逼真的3D室內場景的圖像幀,提供了對真實室內場景的多樣化和全面的模擬。對于每張圖像,研究人員選擇6個新的視角,范圍為-30°到30°,以10°為旋轉單位。
為了確保高效的處理和最佳的性能,使用NVIDIA Tesla V100 GPU進行所有實驗。PixelSynth是一個單目場景補全模型,它使用生成模型來完成輸入圖像之外的內容,并作為基線與團隊模型進行比較。不同之處在于,它們沒有使用場景的3D表示,而是訓練GAN來生成像素內容。在團隊的模型中,使用Flash3D來生成用于3D一致性維護的中間3DGS,并且使用預訓練的擴散模型和VLM。
對于擴散模型之間的比較,即便使用相同的旋轉角度和提示符,擴散模型都能表現出不同的視覺特征。在實驗中,使用了Stable Diffusion-v2和Stable Diffusion-xl。如圖5所示,與Stable Diffusion-xl相比,Stable Diffusion-v2獲得了更多的攝影效果。這種質量對于在多個視圖中優先考慮真實感的應用程序是有利的。相反,Stable Diffusion-xl雖然在產生多樣化和藝術化的視覺風格方面更加靈活,但可能會引入與源圖像在風格上偏離的元素。
Stable Diffusion-xl增加的藝術功能對于創意應用程序是有益的,但與原始圖像相比,可能會導致風格不一致,特別是在需要一致性的場景中。

至于提示符之間的比較,現有強大的視覺語言模型可以很好地描述場景的特征。然而,當將這些提示輸入擴散模型時,會遇到兩個問題:(i)可以輸入擴散模型的令牌長度是有限的,(ii)精心制作的描述性提示不一定能產生高質量的場景生成。
所以,他們在Stable Diffusionv2上進行實驗,以確定最有效的場景生成提示類型。為了研究提示細節如何影響生成的結果,使用兩種類型的擴散提示,在綠色框中標記為“短提示”和“長提示”。長提示描述了房間里的特定物品,它們的相對位置,以及額外的場景元素,為模型提供了更豐富的背景。短提示簡短地描述了場景中的物品。
例如:
提示:一個室內場景,一個窗戶,兩個沙發。
長提示:房間里有一個白色的沙發和幾個枕頭。沙發的左邊是一把帶藍色坐墊的扶手椅,沙發前面是一張小圓木桌子,花瓶里插著一株裝飾性植物。在右邊,有一張兩層木制的圓桌,上面放著一盞小燈。燈在墻上投下溫暖的光。沙發上方的墻上掛著一幅巨大的黑白相框,照片上是湖邊或河邊的獨木舟,為空間增添了自然元素。墻壁漆成淺中性色,房間有一個帶頂燈的吊頂天花板。
如圖6所示,使用較長的提示生成的圖像顯示增強的細節,捕獲額外的元素,如燈和裝飾植物,這提高了紋理和對象的保真度。然而,圖像往往缺乏結構一致性,并且包含更多的偽影。相比之下,使用較短提示生成的圖像呈現更簡單的布局,場景細節更少,但結構更一致。
定量的結果如表1所示,實驗比較了PixelSynth和flashdream兩種方法在不同旋轉角度下的Frechet Inception Distance (FID)和CLIP分數。FID評估生成圖像的質量,分數越低表示圖像保真度越好,而CLIP評分衡量與文本提示的一致性,分數越高越好。隨著旋轉角度絕對值的減小,兩種方法的FID評分逐漸降低,表明圖像質量得到改善。同樣,CLIP分數在這些較小的角度增加,表明更好的提示對齊。總的來說,結果突出了較小的旋轉角度有助于更高質量的圖像生成,而FlashDreamer在大多數評估角度上都優于PixelSynth。
相關論文:Enhancing Monocular 3D Scene Completion with Diffusion Model
總的來說,FlashDreamer這種方法通過從單個圖像創建完整的3D環境來推進單目3D場景重建,消除了傳統3DGS所需的多視圖圖像。通過利用視覺語言模型來生成描述性提示,指導擴散模型產生多視角圖像,FlashDreamer實現了準確和有凝聚力的3D重建。所提出方法不需要額外的培訓,突出了其在虛擬現實應用中的效率和適應性。大量的實驗證實,FlashDreamer可以將單圖像輸入轉換為全面的3D場景,推動了單圖像3D重建領域的發展。

