多視圖視頻數據集

中國AI網 2025年04月18日)理解人類如何相互作用是構建逼真多人虛擬現實系統的關鍵。由于缺乏大規模的數據集,這一領域尚未得到充分的探索。關注這一問題的數據集主要包括完全在受控室內環境中捕獲的活動,它們具有精心設計的動作,嚴重影響了多樣性。

為了解決這個問題,卡內基梅隆大學團隊介紹Harmony4D,這是一個用于人類交互的多視圖視頻數據集,包括摔跤,舞蹈,綜合格斗等in-the-wild活動。研究人員使用靈活的多視圖捕獲系統來記錄動態活動,并為密切交互的被試提供人體檢測,追蹤,2D/3D姿態估計和網格恢復的注釋。

研究人員提出了一種新的無標記算法來追蹤嚴重遮擋和密切交互下的三維人體姿勢,以最少的人工干預獲得注釋。Harmony4D由166萬張圖像和332萬人類實例組成,來自20多個同步攝像頭,具有208個視頻序列,跨越不同的環境和24個獨特的主題。

團隊嚴格評估了現有的最先進網格恢復方法,并強調了它們在模擬密切交互場景方面的重大局限性。另外,他們對Harmony4D的預訓練HMR2.0模型進行了微調,并在嚴重遮擋和接觸的場景中展示了54.8% PVE的改進性能。

卡內基梅隆大學發布Harmony4D數據集,推動真實場景人類互動研究  第1張

作為社會生物,人類經常通過身體接觸與他人互動。通過研究相關的相互作用,人們可以潛在地揭示人類行為的各個方面,包括情感和意圖等。與計算機視覺中的大多數問題一樣,建模接觸交互的第一步涉及建立大規模的3D多人數據集。

近年來出現了一系列這樣的數據集。然而,與大多數現有的單人數據集類似,接觸交互數據集缺乏主體和環境多樣性,并且是在受控的室內條件下通過編排的活動捕獲,很難泛化到現實世界的條件。

核心問題是,由于嚴重的遮擋、截斷和動態運動,為頻繁的人類接觸場景恢復高質量的ground truth網格具有挑戰性。

現有的方法通常依賴于廣泛的RGBD動捕系統或大量的高端有線攝像頭系統來實現準確的注釋。這種對廣泛的靜態捕獲系統的依賴使得in-the-wild數據收集不切實際。

所以問題是:能否開發一種無標記捕獲系統,只使用數個攝像頭,移動式,并且能夠準確地提取3D ground truth,在in-the-wild場景中涉及接觸互動?為了應對這一挑戰,卡內基梅隆大學團隊引入了Harmony4D數據集。

Harmony4D是一個新穎的數據集,具有高分辨率視頻的動態活動與接觸交互,如摔跤,舞蹈,空手道,綜合格斗和擊劍。與以前的數據集相比,Harmony4D是在in-the-wild收集,特別關注主題和環境的多樣性。

表1將數據集與現有的3D人體數據集進行了比較。Harmony4D是一個相當大的數據集,包括從20多個同步攝像頭捕獲的166萬張圖像,產生332萬個可見的人類實例。具體來說,團隊提供了全面的ground truth注釋,如攝像頭參數、2D邊界框、2D/3D人體姿勢和3D人體網格等。

多攝像頭設置的靈感來自于EgoHumans,并利用Meta的Aria眼鏡,以及用于第三人稱視圖的固定RGB攝像頭。

這種組合使得團隊能夠在不使用視覺標記或額外傳感器的情況下長時間準確地追蹤和三角測量3D姿勢。注釋過程最大限度地減少了人工監督的需要。研究人員將任何輸入的多視點視頻序列分為兩個階段:接觸前和接觸后。

接觸前階段是指被試之間第一次身體互動之前的時間間隔。團隊利用現有的姿態提取算法在接觸前階段獲得三維姿態。然而,現有的方法在接觸后的場景中面臨著巨大的挑戰,主要是由于被試非常接近時(例如在摔跤或跳舞期間)存在嚴重的遮擋、截斷和關節模糊。

對于具有挑戰性的接觸后階段,團隊提出了一種新的算法,使用實例分割,分割條件下的2D姿態估計和3D姿態預測在時間反饋回路中精確追蹤3D姿態。關鍵思想是使用分割條件2D姿態估計來推斷缺失或完全隱藏的身體部位,并消除多個人體關節之間的歧義。

最后,團隊建立了一個高效的多階段動捕管道,將SMPL身體模型擬合到3D人體骨骼中,并結合優化以最小化網格相互穿透。Harmony4D數據集廣泛的規模和多樣的場景,使人類接觸估計方法的全面評估和改進成為可能。

卡內基梅隆大學發布Harmony4D數據集,推動真實場景人類互動研究  第2張

研究人員特別評估了目前的人類網格回歸技術。當在大型訓練集對現成的方法進行微調時,微調后的方法可以很好地泛化到具有挑戰性的接觸交互,甚至優于專門為人類接觸推理設計的方法。另外,可以觀察到在頂點接觸預測和遮擋推理方面的顯著改進。

相關論文:Harmony4D: A Video Dataset for In-The-Wild Close Human Interactions

總的來說,團隊提出了一種新的方法來追蹤、分割和定位在in-the-wild條件下頻繁動態物理接觸的多人近距離互動的四維身體網格。關鍵思想是使用多視圖分割條件下的姿態估計,3D運動模型預測和碰撞優化來獲得精確的身體模型參數。

使用所述方法,研究人員構建了不同的Harmony4D數據集,并帶有ground truth注釋,以用于網格恢復。重點放在捕獲真實世界中未經編排的動態活動,如摔跤、舞蹈、空手道和綜合格斗。

評估表明,在大型訓練集微調基線提高了嚴重遮擋和接觸條件下的網格估計性能。更多信息請訪問這個頁面。