所提出方法顯著增加了高質量偽標簽的數量,并且比基線方法提高了自適應性能
(中國AI網 2025年05月29日)多模態3D語義分割對于虛擬現實等應用至關重要。為了在現實場景中有效地部署模型,必須采用跨領域適應技術,以彌合訓練數據和現實數據之間的差距。近年來,基于偽標簽的自訓練方法已成為多模態三維語義分割中跨域自適應的主要方法。然而,生成可靠的偽標簽需要嚴格的約束,這通常會導致修剪后的偽標簽稀疏,而這種稀疏性可能會在適應過程中阻礙性能改進。
在一項研究中,密歇根大學團隊提出了一種圖像引導的偽標簽增強方法。利用來自Segment Anything Model(SAM)的互補2D先驗知識引入更可靠的偽標簽,從而提高域自適應性能。
具體來說,給定一個3D點云和配對圖像數據中的SAM掩碼,收集每個SAM掩碼覆蓋的所有可能屬于同一對象的3D點。然后,分兩步對每個SAM掩碼中的偽標簽進行細化。首先,使用多數投票確定每個掩碼的類標簽,并使用各種約束來過濾掉不可靠的掩碼標簽。
接下來,引入幾何感知漸進傳播GAPP,將掩碼標簽傳播到SAM掩碼內的所有3D點,同時避免了2D-3D不對齊造成的異常值。
跨多個數據集和領域自適應場景的實驗表明,所提出方法顯著增加了高質量偽標簽的數量,并且比基線方法提高了自適應性能。

近年來,3D語義分割已成為3D場景理解中的關鍵任務,對于增強現實/虛擬現實等應用至關重要。在全新多模態數據集的推動下,圖像數據集成越來越多地用于提高3D語義分割的準確性,因為它提供了豐富的紋理和顏色細節等互補的2D信息,補充了3D點云的幾何信息。
然而,與其他感知任務類似,3D語義分割在訓練和真實測試環境之間可能會受到域轉移的影響,所以需要使用域適應技術。
域自適應旨在彌補這一領域的差距,并已成為2D和3D語義分割的重要研究領域。近年來,所述方法已擴展到多模態3D語義分割,并在多種自適應設置下取得了令人印象深刻的效果。
在現有的方法中,使用偽標簽的自我訓練已證明是一個關鍵組成,而業界已經提出了多種偽標簽生成方法,如閾值化或模態協議。然而,生成的偽標簽往往是稀疏的,并且由于其對目標數據的覆蓋不足,往往限制了整體的自適應性能。
最近,Segment Anything Model(SAM)引起了人們的極大關注。SAM訓練了超過10億個掩碼,通過生成具有適當提示的類別無關的分割掩碼,展示了非凡的zero shot分割能力。這種能力已證明對AR/VR等各種應用有價值。
盡管SAM本身不是為3D點云設計,但在最近的研究中,它的多功能性已經擴展到多模態設置。受最近利用SAM的zero shot分割能力的進展的啟發,密歇根大學團隊提出在多模態設置中使用這種2D先驗知識來增強稀疏的3D偽標簽,從而提高域自適應性能。
給定3D點云,由配對的2D圖像數據生成的SAM掩碼可以利用3D點與camera平面之間的3D-2D對應關系,有效地對屬于同一物體的3D點進行分組。利用分組信息,研究人員設計了一個兩步掩碼偽標簽增強框架,以在每個SAM掩碼內生成額外的可靠偽標簽。
具體來說,對于每個與多個3D偽標簽相關聯的SAM掩碼,首先通過多數投票確定整個掩碼的類標簽。為了減輕固有的偽標簽噪點的影響,團隊引入了對掩碼面積和偽標簽分布的各種約束,以過濾掉不可靠的掩碼標簽。
其次,團隊的目標是將掩碼標簽傳播到掩碼內缺乏偽標簽的所有點。為了避免將掩碼標簽分配給由于2D-3D不對準而錯誤投影到對象的離群點,團隊提出了幾何感知漸進傳播GAPP,其中掩碼標簽在每輪中僅傳播到3D空間中的附近點,從而消除了與對象缺乏連接的離群點。

團隊在多個數據集和無監督域和無源域自適應兩種自適應任務對所提出的方法進行了評估。實驗結果表明,所提出方法有效地增加了高質量偽標簽的數量,顯著提高了自適應性能。
相關論文:SAM-guided Pseudo Label Enhancement for Multi-modal 3D Semantic Segmentation
總的來說,團隊提出了一種基于二維SAM掩碼的多模態3D語義分割域自適應偽標簽增強方法。相關解決方案使用MLA和GAPP對每個SAM掩碼中的偽標簽進行細化,確保對偽標簽噪點和2D-3D不對準問題的魯棒性。在多個領域自適應任務和場景下進行的實驗表明,算法成功生成了密度更大的偽標簽,偽標簽精度相似或更高。增強的偽標簽顯著提高了自適應性能。

