實現(xiàn)靈活、高效和開放詞匯的3D分割

中國AI網 2025年05月08日)3D分割是增強現(xiàn)實/虛擬現(xiàn)實等應用的主要興趣點。在一項研究中,慕尼黑工業(yè)大學團隊提出了一個解耦的3D分割管道,以確保模塊化和可適應性。

研究人員首先用3D高斯函數(shù)重建場景,并通過對比監(jiān)督從2D實例建議網絡中學習class-agnostic特征。然后將3D特征聚類形成coarse object-或part-level掩碼。最后,將每個3D聚類與2D open-vocabulary分割模型預測的類感知掩碼匹配,在不重新訓練3D表示的情況下分配語義標簽。

所述解耦設計提供了一個即插即用的界面,以用于交換不同的2D或3D模塊,并確保多對象實例分割,無需額外成本。同時,它利用豐富的3D幾何圖形進行強大的場景理解。

對合成和真實室內數(shù)據(jù)集進行的評估證明了性能優(yōu)越性,特別是對于具有挑戰(zhàn)性或長尾類。相關結果證實了解耦3D掩碼提議和語義分類可以實現(xiàn)靈活、高效和開放詞匯的3D分割。

慕尼黑工大提出DCSEG框架:基于3D高斯飛濺實現(xiàn)開放詞匯語義分割  第1張

理解3D場景的語義和實例級結構是各種下游應用的關鍵要求,包括增強現(xiàn)實/虛擬現(xiàn)實。神經輻射場NeRF的最新進展令人印象深刻。然而,基于NeRF的方法通常需要體渲染,在計算方面十分昂貴,并且對于特定實時應用而言可能不太靈活。

相比之下,3DGS及其后續(xù)技術通過一組3D高斯原語提供了場景的顯式表示,可以實現(xiàn)更快的渲染。盡管開發(fā)了新的表示,開放詞匯的3D語義分割問題依然具有挑戰(zhàn)性。與封閉集3D分割方法不同,開放詞匯表方法旨在處理廣泛或任意類別標簽,并通常利用大規(guī)模的視覺語言預訓練。這在出現(xiàn)意外類或長尾類的環(huán)境中特別有用。

在2D中,CLIP、OpenSeg和OVSeg等方法將像素映射到語義豐富的特征空間,并可以通過文本提示進行查詢。像LERF這樣的技術將開放詞匯表特征轉換為3D NeRF表示,而OpenScene則把語言嵌入與多視圖數(shù)據(jù)的3D特征融合結合起來。SAGA建立在高斯飛濺的基礎之上,并通過對比優(yōu)化將2D特征提升到3D空間,以實現(xiàn)底層高斯的語義聚類。

對于封閉詞匯和開放詞匯的3D分割管道而言,一個關鍵的挑戰(zhàn)是如何將豐富的幾何圖形與可推廣的語義先驗穩(wěn)健地結合起來。傳統(tǒng)的3D網絡需要標記的3D數(shù)據(jù),但這既稀缺又昂貴。其他方法則將3D結構與有語言條件的2D嵌入融合在一起,以開放詞匯表的方式實現(xiàn)語義查詢。然而,它們通常與底層3D表示相耦合,或者依賴于具有稀疏幾何形狀的點云,從而限制了它們的靈活性。

在研究中,德國慕尼黑工業(yè)大學團隊提出了一種基于3D高斯飛濺的解耦3D開放詞匯分割管道DCSEG。

研究人員的目標是開發(fā)一種強大的模塊化方法,以類感知的方式執(zhí)行3D開放集分割。他們嘗試通過一種解耦的方法來實現(xiàn)這一點,將底層的3D表示和語義特征提取與任何其他可以提供class-agnostic的3D聚類和類別感知的2D分割的管道交換。

慕尼黑工大提出DCSEG框架:基于3D高斯飛濺實現(xiàn)開放詞匯語義分割  第2張

關鍵的見解是將掩碼建議與掩碼分類分開。具體來說,首先使用來自2D實例建議模型的對比學習信號來學習每個高斯的緊湊3D特征,然后將特征聚類到3D的instance-level或part-level片段中。接下來,為了實現(xiàn)開放詞匯表標簽,將3D聚類與來自大規(guī)模2D分割主干(如OVSeg或OpenSeg)的類感知掩碼匹配。

由于模塊化架構,可以很容易地在不同的2D基礎分割模型之間交換。團隊利用OpenSeg和OVSeg進行了一個小型消融研究。尾類表現(xiàn)的顯著差異顯而易見。另外,管道可以通過切換底層2D分割模型來適應不同的任務,以適應用戶的特定需求。

團隊在合成(Replica)和真實世界(ScanNet)數(shù)據(jù)集評估了所提出方法,而結果顯示出具有競爭力的性能。總之,方法通過支持實例甚至部分分割而不需要網絡再訓練或架構重新設計,從而為不同的分割任務提供了靈活和健壯的解決方案,并實現(xiàn)了比基線明顯的優(yōu)勢。

相關論文:DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian Splatting

總的來說,DCSEG是一個用于開放詞匯3D語義分割的解耦管道,它能夠同時分割part和實例,無需再訓練。他們利用3D高斯飛濺作為底層場景表示。這種方案在計算效率更高的同時顯示出改進的結果。