SAM 3是什么

SAM 3(Segment Anything Model 3)是 Meta AI 最新推出的先進(jìn)計(jì)算機(jī)視覺模型,能通過文本、示例和視覺提示檢測(cè)、分割和跟蹤圖像及視頻中的對(duì)象。模型支持開放詞匯的短語輸入,具備強(qiáng)大的跨模態(tài)交互能力,可實(shí)時(shí)修正分割結(jié)果。SAM 3 在圖像和視頻分割任務(wù)中性能卓越,是現(xiàn)有系統(tǒng)的兩倍,且支持零樣本學(xué)習(xí)。模型擴(kuò)展到 3D 重建領(lǐng)域,助力家居預(yù)覽、創(chuàng)意視頻編輯和科學(xué)研究等多場(chǎng)景應(yīng)用,為計(jì)算機(jī)視覺的未來發(fā)展提供強(qiáng)大動(dòng)力。

SAM 3 – Meta開源的視覺分割模型  第1張SAM 3的主要功能多模態(tài)提示支持:SAM 3 支持通過文本、示例和視覺提示(如點(diǎn)擊、框選)檢測(cè)和分割圖像及視頻中的對(duì)象,適應(yīng)多種用戶需求。圖像和視頻分割:SAM 3 能在圖像中檢測(cè)和分割所有匹配對(duì)象,支持在視頻中跟蹤對(duì)象,且能實(shí)時(shí)交互性修正分割結(jié)果。零樣本學(xué)習(xí):SAM 3 能通過開放詞匯的文本提示處理未見過的概念,無需額外訓(xùn)練即可分割新對(duì)象類別。實(shí)時(shí)交互性:支持用戶通過添加額外的提示(如點(diǎn)擊或框選)修正模型的錯(cuò)誤,進(jìn)一步優(yōu)化分割結(jié)果,提升用戶體驗(yàn)。跨領(lǐng)域應(yīng)用:SAM 3 廣泛應(yīng)用在創(chuàng)意媒體工具(如 Instagram Edits)、家居裝飾預(yù)覽(如 Facebook Marketplace)和科學(xué)領(lǐng)域(如野生動(dòng)物監(jiān)測(cè))。SAM 3的技術(shù)原理統(tǒng)一模型架構(gòu):SAM 3 基于統(tǒng)一的模型架構(gòu),同時(shí)支持圖像和視頻中的分割任務(wù)。模型結(jié)合強(qiáng)大的視覺編碼器(如 Meta Perception Encoder)和文本編碼器,能處理開放詞匯的文本提示。模型架構(gòu)包括一個(gè)圖像級(jí)檢測(cè)器和一個(gè)基于記憶的視頻跟蹤器,兩者共享同一個(gè)視覺編碼器。多模態(tài)輸入處理文本編碼器:將文本提示編碼為特征向量,用于指導(dǎo)分割任務(wù)。視覺編碼器:將圖像或視頻幀編碼為特征向量,用于檢測(cè)和分割對(duì)象。融合編碼器:將文本和視覺特征融合,生成條件化的圖像特征,用于后續(xù)的分割任務(wù)。存在頭(Presence Head):為提高模型的分類能力,SAM 3 引入一個(gè)存在頭(Presence Head),專門用在預(yù)測(cè)目標(biāo)概念是否存在于圖像或視頻中。有助于將識(shí)別和定位任務(wù)解耦,提高模型的準(zhǔn)確性和效率。大規(guī)模數(shù)據(jù)引擎:為訓(xùn)練 SAM 3,Meta 構(gòu)建了高效的數(shù)據(jù)引擎,結(jié)合人類標(biāo)注和 AI 輔助標(biāo)注,生成超過 400 萬個(gè)獨(dú)特概念的高質(zhì)量標(biāo)注數(shù)據(jù)。數(shù)據(jù)覆蓋多種視覺領(lǐng)域和任務(wù),確保模型具有廣泛的泛化能力。零樣本學(xué)習(xí):SAM 3 支持零樣本學(xué)習(xí),能處理未見過的概念。通過開放詞匯的文本提示,模型用預(yù)訓(xùn)練的視覺和語言編碼器識(shí)別和分割新的對(duì)象類別。實(shí)時(shí)交互性:SAM 3 支持實(shí)時(shí)交互性,用戶能通過添加額外的提示(如點(diǎn)擊或框選)修正模型的錯(cuò)誤,進(jìn)一步優(yōu)化分割結(jié)果。交互性使模型能更好地適應(yīng)用戶的意圖。視頻跟蹤和分割:在視頻任務(wù)中,SAM 3 用基于記憶的跟蹤器處理對(duì)象的時(shí)空一致性。跟蹤器用檢測(cè)器的輸出和記憶中的歷史信息,生成高質(zhì)量的分割掩碼,在視頻幀之間傳播掩碼。SAM 3的項(xiàng)目地址項(xiàng)目官網(wǎng):https://ai.meta.com/sam3/GitHub倉(cāng)庫(kù):https://github.com/facebookresearch/sam3/在線體驗(yàn)Demo:https://www.aidemos.meta.com/segment-anythingSAM 3的應(yīng)用場(chǎng)景創(chuàng)意媒體工具:創(chuàng)作者能快速為視頻中的人物或物體應(yīng)用特效,提升創(chuàng)作效率。家居裝飾預(yù)覽:在 Facebook Marketplace 中,SAM 3 支持“房間預(yù)覽”功能,用戶能預(yù)覽家居裝飾品在自己空間中的效果,輔助購(gòu)買決策。科學(xué)應(yīng)用:SAM 3 用在野生動(dòng)物監(jiān)測(cè)和海洋探索,幫助研究人員更好地理解和保護(hù)自然環(huán)境,例如通過視頻分析野生動(dòng)物行為。3D 重建:SAM 3D 能從單張圖像重建 3D 物體和人體,為物理世界場(chǎng)景中的 3D 重建提供新標(biāo)準(zhǔn),助力虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)應(yīng)用。視頻創(chuàng)作:SAM 3 提供 AI 視覺創(chuàng)作工具,支持對(duì)現(xiàn)有 AI 生成視頻進(jìn)行混剪,提升創(chuàng)作靈活性。