查看引用/信息源請(qǐng)點(diǎn)擊:中國AI網(wǎng)

處理上百物體的圖片僅需30毫秒

中國AI網(wǎng) 2025年11月20日)Meta日前發(fā)布了第三代”分割一切”模型Segment Anything Models(SAM)——SAM 3,并實(shí)現(xiàn)了重大突破,首次支持用戶通過自然語言描述和圖像示例來識(shí)別、分割和追蹤視頻中的任何物體。Meta同時(shí)發(fā)布了用于3D重建的開源模型SAM 3D。

SAM 3最核心的創(chuàng)新之一是引入了”可提示概念分割”(Promptable Concept Segmentation)能力。用戶可以輸入自然語言提示詞,然后模型就能自動(dòng)識(shí)別并分割圖像或視頻中所有符合條件的實(shí)例,突破了傳統(tǒng)模型依賴固定標(biāo)簽集的限制。

Meta發(fā)布第三代”分割一切”模型,支持可提示概念分割  第1張

Meta Segment Anything Model 3簡介

傳統(tǒng)圖像分割模型面臨的最大挑戰(zhàn)是,難以將自然語言與圖像中的具體視覺元素關(guān)聯(lián)?,F(xiàn)有模型通常只能分割”人”等預(yù)定義概念,卻難以理解”條紋紅色雨傘”這類更細(xì)致的描述。

SAM 3通過引入可提示概念分割能力解決了這一局限。模型接受短語形式的文本提示和圖像示例提示,完全擺脫了固定標(biāo)簽集的束縛。為評(píng)估大詞匯量檢測和分割性能,Meta創(chuàng)建了SA-Co基準(zhǔn)數(shù)據(jù)集,包含21.4萬個(gè)獨(dú)特概念、12.4萬張圖像和1700個(gè)視頻,概念覆蓋范圍達(dá)到現(xiàn)有基準(zhǔn)的50倍以上。

模型同時(shí)支持多種提示方式,既包括簡單名詞短語和圖像示例等概念提示,又支持SAM 1和SAM 2引入的點(diǎn)、框、掩碼等視覺提示。這大大提升了分割的靈活性和可用性,特別是對(duì)于罕見或難以用文字描述的概念。

另外,SAM 3可作為多模態(tài)大語言模型的感知工具,處理更復(fù)雜的提示,例如”坐著但沒有拿禮物盒的人”。當(dāng)與多模態(tài)大語言模型(LLM)配合使用時(shí),SAM 3在ReasonSeg和OmniLabel等需要推理的復(fù)雜文本分割基準(zhǔn)測試中表現(xiàn)優(yōu)于此前研究,且無需在任何指代表達(dá)分割或推理分割數(shù)據(jù)上進(jìn)行訓(xùn)練。

利用AI和人類標(biāo)注者構(gòu)建新型數(shù)據(jù)引擎

獲取帶有分割掩碼和文本標(biāo)簽的高質(zhì)量標(biāo)注圖像是一項(xiàng)重大挑戰(zhàn),特別是在視頻中詳盡標(biāo)注每個(gè)物體類別的出現(xiàn)位置既耗時(shí)又復(fù)雜。構(gòu)建覆蓋大量多樣化詞匯和多個(gè)視覺領(lǐng)域的全面數(shù)據(jù)集需要大量時(shí)間和資源。

Meta通過創(chuàng)建可擴(kuò)展的數(shù)據(jù)引擎解決這一問題。其中,引擎將SAM 3、人類標(biāo)注者和AI模型結(jié)合在一起,顯著加快了標(biāo)注速度。對(duì)于負(fù)提示(圖像或視頻中不存在的概念),標(biāo)注速度比純?nèi)斯た旒s5倍,對(duì)于正提示即使在具有挑戰(zhàn)性的細(xì)粒度領(lǐng)域也快36%。這個(gè)人機(jī)混合系統(tǒng)使團(tuán)隊(duì)能夠創(chuàng)建包含超過400萬個(gè)獨(dú)特概念的大規(guī)模多樣化訓(xùn)練集。

由包括SAM 3和基于Llama的圖像描述系統(tǒng)在內(nèi)的AI模型組成的流水線會(huì)自動(dòng)挖掘圖像和視頻,生成描述,將描述解析為文本標(biāo)簽,并創(chuàng)建初始分割掩碼。人類和AI標(biāo)注者隨后驗(yàn)證和修正這些提議,形成快速擴(kuò)展數(shù)據(jù)集覆蓋范圍的反饋循環(huán),同時(shí)持續(xù)提升數(shù)據(jù)質(zhì)量。

AI標(biāo)注者基于經(jīng)過專門訓(xùn)練的Llama 3.2v模型,在標(biāo)注任務(wù)上達(dá)到或超過人類準(zhǔn)確度,例如驗(yàn)證掩碼質(zhì)量或檢查圖像中某概念的所有實(shí)例是否已被詳盡標(biāo)記。通過將部分人類標(biāo)注任務(wù)委托給AI標(biāo)注者,吞吐量相比純?nèi)斯?biāo)注流水線提高了一倍以上。

模型架構(gòu)

SAM 3D包含兩個(gè)新的業(yè)界領(lǐng)先模型:用于物體和場景重建的SAM 3D Objects,以及用于人體姿勢和形狀估計(jì)的SAM 3D Body。這兩個(gè)模型在物理世界場景的3D重建方面樹立了新標(biāo)準(zhǔn)。

SAM 3D Objects代表了一種處理視覺定位3D重建和物體姿態(tài)估計(jì)的新方法,能夠從單張自然圖像重建詳細(xì)的3D形狀、紋理和物體布局。該模型的創(chuàng)新來自于突破了長期存在的物理世界3D數(shù)據(jù)障礙。通過構(gòu)建強(qiáng)大的數(shù)據(jù)標(biāo)注引擎,結(jié)合為3D設(shè)計(jì)的新多階段訓(xùn)練方案,SAM 3D Objects標(biāo)注了近100萬張不同的圖像,生成了約314萬個(gè)模型參與的網(wǎng)格。

在頭對(duì)頭的人類偏好測試中,SAM 3D Objects相對(duì)其他領(lǐng)先模型的勝率至少達(dá)到5比1。該模型通過擴(kuò)散捷徑和其他工程優(yōu)化,可在幾秒鐘內(nèi)返回質(zhì)量相當(dāng)?shù)耐暾y理重建,這使得3D近實(shí)時(shí)應(yīng)用成為可能,例如作為機(jī)器人的3D感知模塊。

SAM 3D Body則專注于從單張圖像進(jìn)行準(zhǔn)確的3D人體姿勢和形狀估計(jì),即使在涉及異常姿勢、遮擋或多人場景的復(fù)雜情況下也能勝任。該模型支持交互式輸入,如分割掩碼和2D關(guān)鍵點(diǎn),使用戶能夠引導(dǎo)和控制模型的預(yù)測。

SAM 3D Body利用大規(guī)模高質(zhì)量數(shù)據(jù)實(shí)現(xiàn)了準(zhǔn)確穩(wěn)健的3D人體姿勢和形狀估計(jì)。研究團(tuán)隊(duì)從包含數(shù)十億張圖像的大型數(shù)據(jù)集開始,使用來自大規(guī)模多樣化照片集合的圖像、各種多攝像頭捕捉系統(tǒng)的高質(zhì)量視頻以及專業(yè)構(gòu)建的合成數(shù)據(jù)。然后使用可擴(kuò)展的自動(dòng)化數(shù)據(jù)引擎挖掘高價(jià)值圖像,選擇具有異常姿勢和罕見捕捉條件的圖像。

團(tuán)隊(duì)組建了約800萬張圖像的高質(zhì)量訓(xùn)練數(shù)據(jù)集,訓(xùn)練模型對(duì)遮擋、罕見姿勢和多樣化服裝具有魯棒性。SAM 3D Body在多個(gè)3D基準(zhǔn)測試中的準(zhǔn)確性和魯棒性實(shí)現(xiàn)了階躍式提升,表現(xiàn)超越了以往模型。

SAM 3D目前尚未完全開源,但Meta表示將共享模型檢查點(diǎn)和推理代碼,并將與一個(gè)新的3D重建基準(zhǔn)測試一同發(fā)布。另外,一個(gè)包含各種不同圖像和物體的大型數(shù)據(jù)集將用于訓(xùn)練。

成果

Meta發(fā)布第三代”分割一切”模型,支持可提示概念分割  第2張

對(duì)于推理速度,在一塊英偉達(dá)H200 GPU,SAM 3模型處理含100多個(gè)目標(biāo)物體的單張圖像僅耗時(shí)30毫秒,在處理約五個(gè)并發(fā)目標(biāo)物體的視頻場景中,可維持接近實(shí)時(shí)的性能。

Meta發(fā)布的SA-Co基準(zhǔn)測試結(jié)果顯示,SAM 3在圖像(基于 SA-Co Gold 子集)和視頻(基于 SA-Co Video)的概念分割性能方面,性能大幅提升。

SAM 3獲得的衡量模型識(shí)別和定位概念能力cgF1分?jǐn)?shù)相比現(xiàn)有模型提高了一倍。SAM 3 的性能始終優(yōu)于Gemini 2.5 Pro 等基礎(chǔ)模型以及GLEE、OWLv2 和 LLMDet 等強(qiáng)大的專業(yè)基線模型。在用戶偏好測試中,用戶對(duì)SAM 3輸出結(jié)果的偏好度約為最強(qiáng)基線模型OWLv2的三倍。在視覺分割任務(wù)(掩模到掩模組、點(diǎn)到掩模)方面同樣取得了最先進(jìn)的結(jié)果,達(dá)到或超過了SAM 2等先前模型的最佳性能。

Meta指出,盡管取得了顯著進(jìn)展,SAM 3在特定場景下仍存在局限。例如,模型難以以零樣本方式泛化到細(xì)粒度的領(lǐng)域外概念,特別是需要專業(yè)領(lǐng)域知識(shí)的特定術(shù)語,如醫(yī)學(xué)或科學(xué)圖像中的”血小板”。應(yīng)用于視頻時(shí),SAM 3以類似SAM 2的方式追蹤每個(gè)物體,這意味著推理成本隨被追蹤物體數(shù)量線性增長。每個(gè)物體單獨(dú)處理,僅利用共享的每幀嵌入,沒有物體間的通信。

更多信息請(qǐng)?jiān)L問Meta官網(wǎng)。