Vidi2是什么

Vidi2是字節跳動推出的專注于視頻理解和創作的多模態大語言模型。在多模態時間檢索(TR)方面達到了行業領先水平,在時空定位(STG)和視頻問答(Video QA)方面取得了顯著進展。Vidi2能根據文本查詢,不僅識別出視頻中對應的時間戳,能標記出目標對象的邊界框。Vidi2引入了新的基準測試VUE-STG和VUE-TR-V2,以更好地評估STG能力。在實際應用中,Vidi2支持如智能剪輯、智能分鏡、智能字幕等功能,幫助創作者更高效地進行視頻創作。

Vidi2  字節跳動推出的多模態視頻理解與生成模型 第1張Vidi2的主要功能視頻理解與檢索:能處理數小時長的視頻素材,根據文本查詢快速定位到視頻中相關的時間段,支持復雜場景下的長視頻理解。時空定位(STG):不僅能識別視頻中的時間戳,還能在這些時間段內標記出目標對象的邊界框,實現精準的時空定位。視頻問答(Video QA):支持視頻問答任務,能基于視頻內容回答用戶的問題,提供更全面的多模態推理能力。智能創作工具:支持自動剪輯、智能分鏡、智能字幕等多種功能,幫助創作者將長視頻素材快速轉化為適合TikTok等平臺的短視頻。多視角切換與智能重構圖:支持自動多視角切換和智能、構圖感知的重新框選與裁剪,提升視頻的視覺效果。Vidi2的技術原理多模態融合:Vidi2將視覺編碼器(用于處理視頻幀和片段)與大型語言模型相結合,通過指令微調和對齊,形成一體化的長視頻理解與表達能力。時空定位(STG):Vidi2通過時空定位技術,能根據文本查詢在視頻中精確定位到相關的時間戳和目標對象的邊界框?;诙嗄B特征提取和相似度計算,通過深度學習模型(如Transformer)處理視頻的時空信息。視頻理解與檢索:Vidi2利用多模態文本-視頻檢索技術,將文本和視頻數據轉換為向量表示,再通過相似度計算(如余弦相似度)實現文本到視頻的檢索。通過特征提取和深度學習技術,對視頻內容進行結構化分析,實現高效的視頻檢索。多粒度時序建模:Vidi2采用多粒度時序建模技術,能處理從單幀到長視頻片段的不同時間尺度信息,結合記憶與檢索機制(如滑窗+記憶token/檢索增強),實現對長視頻的高效理解和檢索。跨模態對齊:Vidi2通過跨模態對齊技術,將視頻中的視覺信息、音頻信息和文本信息進行有效對齊,從而實現更全面的視頻內容理解。Vidi2的項目地址項目官網:https://bytedance.github.io/vidi-website/Github倉庫:https://github.com/bytedance/vidiarXiv技術論文:https://arxiv.org/pdf/2511.19529Vidi2的應用場景智能視頻剪輯:自動從長視頻中提取精彩片段,生成適合短視頻平臺的內容,提高創作效率。視頻問答:基于視頻內容回答用戶問題,增強用戶與視頻內容的交互體驗。時空定位輔助編輯:通過精準定位視頻中的時間和對象,輔助創作者進行復雜編輯任務,如多視角切換和智能重構圖。自動字幕生成:為視頻自動生成字幕,提升視頻的可訪問性和用戶體驗。內容創作輔助:幫助創作者將簡單提示或主題轉化為完整的視頻腳本,包括標題、鉤子和分鏡。