數(shù)據(jù)集

中國AI網(wǎng) 2025年04月15日)視頻生成已經(jīng)成為世界模擬的一個重要工具,可以利用視覺數(shù)據(jù)來復制現(xiàn)實世界的環(huán)境。以人類視角為中心的以自中心視頻生成在增強虛擬現(xiàn)實和增強現(xiàn)實等應用方面具有巨大的潛力。

然而,由于自中心視點的動態(tài)性、行為的復雜性和所遇場景的復雜性,自中心視頻生成面臨著巨大的挑戰(zhàn),現(xiàn)有的數(shù)據(jù)集不足以有效應對。

為了彌補這一差距,阿里巴巴,中國科學院自動化研究所,清華大學和中國科學院大學團隊提出了一個相關的數(shù)據(jù)集EgoVid-5M。

它包含500萬個自中心視頻剪輯,并提供了詳細的動作注釋。為了確保數(shù)據(jù)集的完整性和可用性,團隊實現(xiàn)了一個復雜的數(shù)據(jù)清洗管道,目標是保持幀一致性、動作一致性和自中心條件下的運動平滑性。

中國團隊為R/VR大模型內(nèi)容生成發(fā)布500萬組EgoVid-5M數(shù)據(jù)集  第1張

在視頻生成領域,世界模擬器的開發(fā)十分重要。相關系統(tǒng)利用視覺模擬和交互在物理世界中提供應用程序。當代研究越來越多地驗證了視頻生成在這一領域的能力,包括AR/VR。

在以人為中心的場景中,利用行為動作來驅動自中心視頻生成已經(jīng)成為一種關鍵策略,并極大地增強了AR/VR等領域的應用,提供了更加身臨其境的交互式體驗。

視頻生成需要大量高質量的訓練數(shù)據(jù),而由于以自中心視角的動態(tài)性,動作的豐富性以及所遇場景的多樣性,這一要求在自中心視頻生成中更為嚴格。盡管對專業(yè)數(shù)據(jù)的需求非常迫切,但目前缺乏合適的大規(guī)模數(shù)據(jù)集來訓練自中心視頻生成模型。

為了彌補這一差距,阿里巴巴,中國科學院自動化研究所,清華大學和中國科學院大學團隊提出了EgoVid5M數(shù)據(jù)集,這是一個專門為自中心視頻生成而設計的開創(chuàng)性高質量數(shù)據(jù)集。

團隊指出,它具有以下數(shù)個關鍵特征:

高質量:數(shù)據(jù)集以1080p分辨率提供500萬個自中心視頻。與Ego4D相反,EgoVid-5M經(jīng)過了嚴格的數(shù)據(jù)清洗過程。視頻采用了嚴格的標準,包括動作描述和視頻內(nèi)容之間的一致性,動作的大小以及幀之間的一致性。

場景覆蓋全面:EgoVid-5M覆蓋家庭環(huán)境、戶外環(huán)境、辦公活動、體育運動、熟練操作等全方位場景。它包含了數(shù)百種行動類別,從而涵蓋了以自中心視角遇到的大多數(shù)場景。

詳細和精確的注釋:數(shù)據(jù)集包含廣泛的行為注釋,分為細粒度的運動學控制和高層次的動作描述。對于運動學信息,團隊使用視覺慣性里程計(VIO)來提供精確的注釋,確保與視頻內(nèi)容精確對齊。對于動作描述,采用多模態(tài)大語言模型結合大語言模型生成詳細的文本注釋。

中國團隊為R/VR大模型內(nèi)容生成發(fā)布500萬組EgoVid-5M數(shù)據(jù)集  第2張

利用提出的EgoVid-5M數(shù)據(jù)集,研究人員訓練了不同的視頻生成基線來驗證數(shù)據(jù)集的質量和有效性。實驗結果表明,EgoVid-5M顯著增強了自我中心視頻生成的訓練。

另外,團隊提出了EgoDreamer,它利用動作描述和運動控制來驅動自中心視頻生成。為了全面評估自中心視頻生成,團隊建立了一套廣泛的評估指標。度量包含多個維度,例如視覺質量、幀一致性、動作的語義遵從性和運動學精度。大量實驗表明,EgoVid-5M顯著增強了各種視頻生成模型制作高質量自我中心視頻的能力。

相關論文:EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation

總的來說,EgoVid-5M是一個自中心視頻高質量數(shù)據(jù)集,包含500萬個視頻片段。數(shù)據(jù)集有效地解決了與自中心視角的動態(tài)性、復雜的行動多樣性和所遇復雜場景相關的挑戰(zhàn)。

復雜的數(shù)據(jù)清理管道實現(xiàn)進一步確保了數(shù)據(jù)集的完整性和可用性,在自中心條件下保持幀一致性、動作一致性和運動平滑性。另外,團隊提出的EgoDreamer展示了通過同時結合動作描述和運動控制信號來生成自中心視頻的能力,從而增強了生成內(nèi)容的真實感和適用性。

團隊表示,希望EgoVid-5M數(shù)據(jù)集以及相關的注釋和元數(shù)據(jù)將作為研究社區(qū)的寶貴資源,并鼓勵研究人員利用相關創(chuàng)新來推動自中心視頻生成領域的進一步探索和發(fā)展,并最終推進在虛擬現(xiàn)實和增強現(xiàn)實等領域的應用。

更多信息請訪問這個頁面。