在追蹤輸入丟失后依然可以產生平滑過渡
(中國AI網 2025年07月18日)在擴展現實中,生成用戶的全身運動對于理解他們的行為,驅動虛擬化身進行社交互動,并傳達真實臨場感非常重要。現在越來越多的XR應用選擇基于視覺的手部追蹤,以減少用戶摩擦和更好的沉浸感。與控制器相比,手部追蹤信號不太準確,甚至可能在長時間后丟失。
為了處理這種不可靠的輸入,Meta,巴塞羅那大學,Computer Vision Center和倫敦國王學院團隊提出了滾動預測模型(RPM)。這種在線和實時方法可以從時間和空間稀疏的輸入信號中生成平滑的全身運動。模型可以生成與輸入匹配的精確運動和當輸入缺失時可信的運動。
更重要的是,RPM生成從追蹤到合成的無縫轉換,反之亦然。為了證明處理噪點和缺失輸入的實際重要性,研究人員又提出了GORP,這是一個來自商業虛擬現實頭顯的真實稀疏輸入數據集,具有成對的高質量身體運動ground truth值。GORP提供了28個人使用控制器(空間稀疏)和手部追蹤(空間和時間稀疏)的14小時VR游戲數據。團隊在合成數據和GORP對RPM進行了基準測試,以突出如何通過處理不可靠的輸入信號,用真實的數據集彌合現實應用程序的差距。

近年來,我們見證了擴展現實應用的爆炸式增長。無論是在完全沉浸式的虛擬世界中,還是在增強現實中,了解用戶的全身運動對于理解他們與世界和其他人的互動至關重要。然而,用戶的全身運動只能從慣性測量單元(IMU)或SLAM的空間稀疏自心傳感信號中推斷出來。
先前的研究在假設輸入信號始終可用且可靠的情況下取得了很好的結果。然而,這主要適用于控制器(MC),但不適用于頻繁和更用戶友好的手部追蹤(HT)設置。對于手部追蹤,手部遮擋頻繁,導致手勢信號缺失,如圖1所示。在這種傳感信號丟失的情況下,一個優秀的解決方案應該依然可以合成可信的全身運動(即合成模式)。
當缺失的手勢信號重新出現(即追蹤模式)時,其位置和運動動力學可能與當前合成結果不匹配。在這種情況下,與其立即抓拍手部,更需要的是提供真實運動動態的平滑過渡,因為運動不連續會破壞感知到的運動真實感,而這對于確保共在期間的沉浸感至關重要。
盡管這個問題很重要,但迄今為止只有很少的研究進行了探索。其中一個主要障礙是缺乏具有真實傳感信號和高質量ground truth的數據集。收集這樣的數據集需要解決來自商業XR設備的傳感數據與動捕(MoCap)之間精確同步和校準的繁瑣任務。相反,以前的研究使用合成數據進行訓練。然而,基準測試無法復制在實際使用中遇到的諸多挑戰,例如頻繁的追蹤信號丟失和高噪點手部追蹤輸入。所以,在合成數據訓練的模型在暴露于真實追蹤輸入時往往表現不佳,這突出了對捕獲真實XR場景的新數據集的需求。
在這項研究中,Meta,巴塞羅那大學,Computer Vision Center和倫敦國王學院團隊提出了滾動預測模型(RPM)。這種在線和實時方法可以從時間和空間稀疏的輸入信號中生成平滑的全身運動。模型可以生成與輸入匹配的精確運動和當輸入缺失時可信的運動。
表1和表2分別顯示了在MC和HT兩種情況下RPM與SOTA的比較。盡管大多數SOTA方法在MC場景中顯示出非常精確的運動生成,但在手部追蹤信號丟失的情況下,它們無法生成平滑的過渡。正如預期的那樣,AvatarPoser、SAGE、EgoPoser和AvatarJLM等基線一旦重新出現就會匹配新的手部追蹤信號,從而導致突變(即非常高的AUJS-T)。
即便是HMD-Poser,在追蹤輸入損失后都會顯示出非常粗糙的過渡。基于生成擴散的基線AGRoL,在在線應用時顯示出高抖動,這是由于去噪鏈中的長跳躍,需要使其計算效率高。
相比之下,團隊提出的模型在MC/HT設置中都顯示出具有競爭力的準確性,并且是唯一能夠在追蹤輸入丟失后依然可以產生平滑過渡的模型(比AUJS-T低50倍)。通過調整預測長度,可以增加或減少生成運動對追蹤信號的反應。實驗表明,由于追蹤輸入和合成運動之間的錯位,vanilla RPM退化。通過加入自由運行階段,模型對自身的錯誤具有魯棒性,達到了競爭精度。
為了評估算法在真實場景下的性能,團隊通過Meta Quest 3收集了一個真實的VR游戲數據集,并使用Optitrack動捕系統獲得了同步和校準的ground truth。為了同步兩個系統的數據,研究人員開發了高度精確的專有解決方案,校準誤差小于1毫米。
28名參與者分別玩了一個基于控制器的游戲和一個基于手部追蹤的游戲,各玩了15分鐘(總共14個小時)。選擇的游戲鼓勵玩家進行各種各樣的手部和手臂動作,以涵蓋各種各樣的現實活動。他們在Meta Quest 3中擴展了基于計算機視覺的追蹤算法,以揭示當控制器或手在攝像頭視場之外時的追蹤問題。
團隊指出,這個數據集是第一個提供真實追蹤信號和高質量ground truth的數據集。GORP使得他們能夠研究合成基準和實際基準之間的差距。為此,他們在GORP生成的合成MC和HT設置訓練所有基線和所提出方法,就像對A-P1和A-P2所做的那樣。然后,在模擬MC/HT追蹤輸入和真實追蹤輸入信號上對方法進行了評估。
如表4所示,在實際MC輸入的評估中,所有方法的MPJPE都增加了20%左右,這可能是由于控制器的非剛性位置造成。在HT模式下,如表5所示,頻繁的追蹤信號丟失和噪點手部追蹤檢測以類似的方式影響模型的精度。運動動力學同樣受到影響,產生高達4倍的抖動運動,高達x2的MPJVE (AvatarJLM)。
最后,研究人員在真實追蹤輸入重新訓練所有模型,而這提高了所有模型的精度和平滑度指標。然而,盡管取得了進展,但性能依然落后于在合成數據進行訓練和評估時所取得的成績。這可能是由于合成基準測試無法捕獲實際輸入的額外挑戰。這種差異凸顯了對更現實基準的需求,比如GORP,它可以幫助彌合合成性能和真實性能之間的差距。

在圖6和7直觀地比較了A-P1和GORP數據集產生的運動。研究人員觀察RPM如何在追蹤信號丟失期間合成合理的運動。一旦恢復了追蹤,RPM是唯一能夠生成平滑過渡以再次匹配追蹤的方法。至于其他的方法,則是立即對準新的追蹤信號,并打破之前運動的連續性。可以看出,RPM的平滑過渡帶來比其他方法更現實的運動。
相關論文:From Sparse Signal to Smooth Motion: Real-Time Motion Generation with Rolling Prediction Models
https://arxiv.org/pdf/2504.05265
總的來說,RPM是一種實時運行的新架構,并解決了從空間和時間稀疏追蹤輸入生成全身運動的具體挑戰。即便追蹤輸入突然丟失或恢復,RPM都能產生平滑的人體運動。得益于PCAF,可以控制模型對追蹤輸入的反應,以匹配不同應用程序的需求。
研究人員同時提出了GORP,這是一個具有配對真實VR追蹤數據的運動數據集。有了它,團隊為這個任務提供了迄今為止最完整的基準測試。研究結果顯示了在合成數據集訓練的方法在應用于真實數據時面臨的性能差距,并強調了GORP在這一領域推動進展的潛力。
當然,考慮到RPM的確定性,在長時間的追蹤信號丟失期間,生成的運動有時會失去表達性。所以,未來的研究包括擴展RPM以細化多種可能的未來動作,并使用其他動作表示。

