強調(diào)了使用VR數(shù)據(jù)集進行情景感知人類軌跡建模的優(yōu)勢
(中國AI網(wǎng) 2025年04月22日)虛擬環(huán)境為收集人類行為的詳細數(shù)據(jù)提供了豐富和可控的設置,為預測動態(tài)場景中的人類軌跡提供了獨特的機會。然而,大多數(shù)現(xiàn)有方法都專注于靜態(tài)情景,而沒有考慮用戶特定的因素。
所以利用CREATTIVE3D數(shù)據(jù)集,法國蔚藍海岸大學和普瓦提埃大學團隊在VR場景中記錄了各種情況的軌跡,包括過馬路任務和模擬的視覺障礙等。
他們提出了多元語境VR人體運動預測DiVR。這個基于Perceiver架構(gòu)的跨模式transformer使用異構(gòu)圖卷積網(wǎng)絡集成了靜態(tài)和動態(tài)場景語境。大量的實驗表明,與其他模型和靜態(tài)圖相比,DiVR具有更高的精度和適應性,并強調(diào)了使用VR數(shù)據(jù)集進行情景感知人類軌跡建模的優(yōu)勢,而且在增強元宇宙用戶體驗方面具有潛在的應用。

捕獲個體與環(huán)境之間的動態(tài)交互對于人類運動預測至關(guān)重要,而包括視覺場景上下文可以提高預測的準確性。然而,現(xiàn)有的方法主要依賴于逐幀視頻分析,難以充分解釋復雜的交互。由3D傳感器生成的場景點云提供空間數(shù)據(jù),但不能不紅時間變化和人類意圖。
數(shù)據(jù)捕獲和表示方法盡管在受控和簡單的場景中十分有用,但在提供對動態(tài)環(huán)境中個人意圖和交互的細微理解方面存在不足。這一限制顯著影響了預測的準確性,特別是在復雜的導航場景中。
虛擬現(xiàn)實技術(shù)提供了一種安全、可控的媒介以復制真實世界的場景來研究人類行為。所以,法國蔚藍海岸大學和普瓦提埃大學團隊利用CREATTIVE3D數(shù)據(jù)集,在VR場景中記錄了各種情況的軌跡,包括過馬路任務和模擬的視覺障礙等。
CREATTIVE3D數(shù)據(jù)集是研究不可或缺的一環(huán),它提供了基于本體的VR環(huán)境,并對3D場景、對象和交互式任務進行了注釋。另外,它包括模擬低視力條件的場景和注視追蹤,可以更深入地研究模型如何捕獲個體行為,從而幫助解決現(xiàn)有計算機視覺方法和數(shù)據(jù)集的局限性。
所提出的DiVR是一種使用異構(gòu)圖表示來有效捕獲人類環(huán)境動態(tài)特性的新模型,如圖1所示。研究人員利用CREATTIVE3D數(shù)據(jù)集中的注釋來測試和改進用于人體運動預測的DiVR。通過合并靜態(tài)和動態(tài)變量,DiVR捕獲交互和環(huán)境因素,使其能夠在不同的用戶,任務復雜性和場景布局中進行泛化。

DiVR模型利用三種數(shù)據(jù)模式:注視插值的場景點云,過去的運動數(shù)據(jù),以及通過異構(gòu)圖表示的人-場景交互上下文。模式中的每一個都由使用Perceiver架構(gòu)的單個分支處理。
第一個分支使用PointNet++從插入場景點云的注視數(shù)據(jù)中提取特征并編碼為latent向量fgaze。同時,第二個分支將原始運動數(shù)據(jù)轉(zhuǎn)換為latent運動表示。第三個分支則利用TemporalGCN來處理時間異構(gòu)圖,生成上下文的潛在圖向量。
DiVR架構(gòu)的核心是一個跨模式注意機制,它融合了運動和注視,增強了模型對注視方向和運動之間相互作用的敏感性。
另外,機制通過預測跨模式轉(zhuǎn)換器集成了上下文,并結(jié)合了運動、注視和環(huán)境圖形數(shù)據(jù)。這種多種模式的融合,以及使用異構(gòu)圖對環(huán)境和交互的結(jié)構(gòu)化表示,極大地提高了未來軌跡預測的準確性。
實驗結(jié)果顯示,DiVR-Het不僅優(yōu)于MLP基線,ADE和FDE分別降低了31.2%和44.3%,而且與GIMO相比。另外,它顯示了整合high-level環(huán)境的有效性。同樣,與基線相比,DiVR-Hom顯示出顯著改善,ADE減少27.3%,F(xiàn)DE減少34.3%。
相關(guān)論文:DiVR: incorporating context from diverse VR scenes for human trajectory prediction
總的來說,DiVR是一種用于人類軌跡預測的多模式transformer,利用來自豐富VR上下文數(shù)據(jù)的異構(gòu)圖形。實驗證明了DiVR在不同條件下的穩(wěn)健性,并通過泛化測試突出了這一點。這項研究的一個關(guān)鍵優(yōu)勢是在廣泛的場景中進行了詳細的評估,通過基于圖形和時間建模技術(shù)展示了DiVR在處理復雜任務和低視力條件方面的有效性。
但一個值得注意的限制是,模型依賴于高質(zhì)量的數(shù)據(jù)集來準確地創(chuàng)建場景圖,而相關(guān)數(shù)據(jù)集并不廣泛可用。為了緩解這種情況,未來的工作可以探索來自智能城市基礎(chǔ)設施和自動駕駛汽車傳感器的數(shù)據(jù),以提供實時交通和行人數(shù)據(jù)。這將增強模型在現(xiàn)實場景中的適用性和性能,有助于開發(fā)更具適應性的城市交通系統(tǒng)。
另外,VR在將不同場景和人群納入培訓方面的優(yōu)勢凸顯了它在現(xiàn)實生活中重要應用的潛力。
源代碼請訪問GitHub。

