僅使用佩戴在頭部和手腕的三個慣性測量單元傳感器獲取的慣性數據來估計全身姿態

中國AI網 2025年08月28日)支持全身虛擬呈現的動捕系統對于虛擬現實至關重要。與基于視覺的系統相比,從稀疏追蹤信號進行全身姿態估計不受環境條件或記錄范圍的限制。然而,先前的研究要么面臨需要在骨盆和下半身佩戴額外傳感器的挑戰,要么依賴外部視覺傳感器獲取關鍵關節的全局位置。

為了提高所述技術在虛擬現實應用中的實用性,由杭州電子科技大學,天津工業大學和麗水學院等組成的團隊僅使用佩戴在頭部和手腕的三個慣性測量單元(IMU)傳感器獲取的慣性數據來估計全身姿態,從而降低了硬件系統的復雜性。

在這項研究中,研究人員提出了一種名為漸進式慣性姿態估計器ProgIP的人體姿態估計方法。所述解決方案將神經網絡估計與人體動力學模型相結合,考慮了運動鏈的層次結構,并采用深度遞增的多階段漸進式網絡估計來實時重建全身運動。

編碼器結合了Transformer編碼器和TE-biLSTM,以靈活捕獲慣性序列的時間依賴性,而基于MLP的解碼器則轉換高維特征并將其精確投影到SMPL模型參數。在多個公共數據集的定量和定性實驗結果表明,所提出方法在相同輸入下優于最先進的方法,并與使用六個IMU傳感器的方案性能相當。

中國研究團隊開發僅需三個IMU傳感器的全身動作捕捉技術  第1張

虛擬現實技術通過計算機生成的環境為用戶提供沉浸式體驗,精確的全身運動追蹤在提升這種體驗中起著至關重要的作用。虛擬現實與動捕的創新性整合確保了真實世界運動與虛擬場景的無縫對齊,并為運動分析、醫療應用等多個領域開辟了新的交互可能性。

在當前虛擬現實應用中,成熟的高精度動捕捕解決方案之一是基于視覺的方法。這一方法使用多個帶標記或不帶標記的RGB攝像頭估計人體姿態,但容易受到外部環境和應用場景的影響。可穿戴慣性傳感器同時為動捕提供了令人滿意的解決方案,克服了視覺方法固有的遮擋和監測區域受限問題。例如,商用慣性動捕系統Xsens通過17個或更多慣性傳感器獲取人體關節的運動信息。

近年來,研究進一步將所需傳感器數據減少到六個,稀疏地佩戴在頭部、骨盆、手腕和腳踝,并使用稀疏慣性傳感器數據實時估計3D人體姿態。然而,佩戴在下半身的額外設備限制了運動的多樣性和個人舒適度。在典型的虛擬現實設置中,通常使用頭戴式顯示器和兩個手持控制器進行交互。為了在虛擬現實等應用中減少設備數量并提高便攜性,團隊的目標是僅利用佩戴在頭部和手腕的三個純慣性傳感器提供的加速度和旋轉數據,提高全身姿態估計的適用性和效率。

在缺乏稀疏上身關節位置信息的情況下,僅基于已知的慣性約束直接估計全身關節位姿是一個具有挑戰性的逆運動學IK問題。然而,傳統的IK方法忽略了人體動力學約束,導致關節旋轉誤差沿運動鏈累積,最終造成末端關節的不自然形變。他們觀察到相鄰關節之間存在顯著的運動相關性,并引入了一種局部區域建模策略,以根據運動鏈深度遞增的順序,在多階段中逐步估計相應區域內具有相同或相似深度的關節位姿。

深度較小的祖先關節的旋轉應比深度較大的后代關節的旋轉更早被估計,因為深度較小的關節更靠近身體中心,影響其后續深度的所有關節,從而決定了整個骨架的姿態。這種估計策略有效減少了誤差累積,提高了虛擬全身角色重建的準確性和自然度。

因此,為了實現逼真的實時全身運動合成,研究人員提出了一種名為漸進式慣性姿態估計器ProgIP的運動鏈估計方法。如圖1所示,所述方法僅利用佩戴在頭部和手腕的三個IMU傳感器提供的加速度和旋轉測量值,沿運動鏈深度逐步估計關節位姿。精心設計的TE-biLSTM編碼器提供了對慣性信號的全局和局部理解,提升了在線模式下的運動重建質量。基于MLP的解碼器共享來自編碼器的高維復雜特征,將姿態特征投影和轉換到SMPL模型參數上。

團隊在具有挑戰性的公共數據集(包括AMASS、DIP-IMU和TotalCapture)驗證了ProgIP的有效性,在使用三組慣性輸入進行全身姿態估計方面達到了最先進的性能,并在可接受的延遲內生成逼真的實時動畫演示。

另外,他們從最先進的稀疏輸入全身姿態估計方法中選擇了四個與研究最相似的基線。第一個基線是AvatarPoser。由于輸入不包括位置數據,調整其輸入信號為加速度、旋轉和角速度,同時忽略了其逆運動學模塊。第二個基線是AGRoL,將其輸入調整為加速度、旋轉和角速度。IMUPoser因其設備組合與提及的完美匹配而最接近團隊提出的方法,他們省略了其輸入信號的下采樣和濾波。最后一個基線是TransPose,它使用佩戴在特定位置的六個IMU傳感器。

所以,去除了佩戴在骨盆和下半身的傳感器,僅估計上身關節位置作為中間過程,不考慮全局平移。所有基線均在GitHub公開可用。為公平比較,遵循原始實現,在相同數據集上進行訓練、驗證和測試,并保持其他細節與原始一致。

定量評估: 為證明所提出的ProgIP的有效性,使用現有數據集(AMASS-HumanEval&Transition 和 TotalCapture)的測試序列,將其與四個基線進行定量比較。考慮到上身表示的質量對虛擬現實應用也至關重要,將定量評估分為三種場景:估計并評估全身關節位姿、估計全身關節位姿但僅評估上身關節位姿、以及估計并評估上身關節位姿。

中國研究團隊開發僅需三個IMU傳感器的全身動作捕捉技術  第2張

表III、表IV和表V報告了每個指標的平均值和標準差,ProgIP在所有指標上都取得了最佳結果,優于四個基線。AvatarPoser表現次于團隊提出方法,在兩個數據集上均獲得第二好的性能,其基于Transformer的網絡提供了顯著優勢,前向運動學模塊減少了運動鏈中旋轉誤差的累積。然而,AvatarPoser直接從輸入信號估計全身姿態,依賴單一的Transformer架構提取全局特征,沒有顯式地建模關節的層次關系。

中國研究團隊開發僅需三個IMU傳感器的全身動作捕捉技術  第3張

第三名是TransPose,它使用關節位置作為中間過程來解決關節的相對旋轉。然而,僅依賴三組慣性測量不足以準確估計關節的根節點相對位置。IMUPoser在TotalCapture上獲得倒數第二的結果,在AMASS上表現最差。與TransPose相比,它簡化了關節位置的求解,且設計的RNN結構相對簡單。AGRoL在TotalCapture的所有指標中表現最差,在AMASS中表現倒數第二,這歸因于其基于MLP的擴散模型。盡管其特制的運動條件擴散模型在運動生成中起關鍵作用,但其MLP主干未能充分捕獲時間信息。

圖5展示了TotalCapture數據集中部分序列全身關節沿x軸、y軸和z軸的平均位置誤差。可以看出,關節誤差不隨時間顯著漂移,而僅與當前幀的動作相關。這歸功于ProgIP設計的多階段漸進式估計和關節位置一致性損失,增強了相鄰關節間的依賴性,減少了關節旋轉估計誤差沿運動鏈的累積。在TotalCapture真實數據集上測試時,ProgIP的表現與原始TransPose相當,旋轉誤差相差3.24度,全局位置誤差相差1.46厘米,網格位置誤差相差1.01厘米,接近使用六個IMU傳感器的全身姿態估計方案,如圖6所示。

中國研究團隊開發僅需三個IMU傳感器的全身動作捕捉技術  第4張

同時,為證明其可靠性,團隊特別報告了ProgIP針對不同類型運動的誤差范圍。他們在TotalCapture數據集上進行實驗,包括四種運動類型各三次重復,報告了不同運動類型的性能和誤差范圍,如表VI所示。

定性評估: 使用從TotalCapture數據集中選取的部分序列,將ProgIP重建的姿態與四個基線進行比較,來自真實數據集的定性結果更好地反映了ProgIP的穩定性和優越性。

中國研究團隊開發僅需三個IMU傳感器的全身動作捕捉技術  第5張

圖7直觀地展示了相關示例,其中ProgIP表現出卓越的性能,并有效捕獲了挑戰性動作(尤其是手臂動作和骨盆旋轉)的細微差別。然而,對于轉身動作的下半身重建,即使估計的腿部姿態與真實值略有差異,結果仍然合理。在特定場景中,可以看到ProgIP成功重建了上半身和下半身,而AGRoL在某些情況下未能準確估計上臂姿態。ProgIP在這些真實數據上的表現可歸功于精心設計的編碼器和解碼器有助于捕獲運動的一致性和變化性,結合漸進式人體建模,這對于估計具有挑戰性的姿態尤其有益。

如定性結果所示,它實現了視覺上令人愉悅的最先進的在線捕獲質量。大量的定量和定性實驗結果證明,ProgIP在捕獲精度和物理真實性方面顯著優于基線。在沿運動鏈深度進行的漸進式估計中,TE-biLSTM編碼器和基于MLP的解碼器被用于更好地捕獲狀態變化信號以解決運動模糊問題。同時,估計精度的進一步提升歸功于利用前向運動學計算的關節位置的有效約束。

為評估ProgIP關鍵組件的有效性,團隊將其與另外四個變體進行比較:(1) 無深度區域:將身體分割為三個區域,不考慮運動鏈約束;(2) 無漸進:直接使用慣性測量估計全身姿態,而非多階段漸進式估計;(3) 無全局信息:漸進式估計任務僅依賴慣性測量,沒有全局信息;(4) 無前向運動學:損失函數僅最小化旋轉角度,未納入由前向運動學計算的關節位置帶來的額外約束。

他們在AMASS-HumanEval&Transition和TotalCapture數據集將這四種變體與所提出方法進行比較,表VII中的實驗結果清晰地展示了性能差異。移除組件顯著增加了關節旋轉和位置誤差。ProgIP逐步估計后代關節位姿并迭代更新父關節位姿以增加運動鏈深度,這對優化全身運動重建有積極貢獻。另外,他們利用前向運動學計算的位置來約束相對于父關節的關節旋轉,以進一步提高性能。兩個數據集上的趨勢證實,ProgIP不僅在合成數據上表現良好,而且在處理真實場景中復雜動態運動時也具有魯棒性和有效性。

當然,團隊坦誠當前方案存在局限性。首先,ProgIP是一種基于學習的方法,因此當遇到與訓練數據集差異顯著的姿態(如抖動或腳部滑動)時,生成的虛擬形象動畫可能表現出不自然的運動,但方法生成的姿態幾乎是相同且合理的。在未來的研究中,將構建并整合具有代表性且多樣化的包含真實慣性數據的數據集,以增強模型的泛化能力。其次,對于坐下和站起等旋轉測量值幾乎相似的運動,ProgIP可能重建出不準確的姿態。因此,未來的研究將探索應用于RNN架構的基于加速度的動態初始狀態編碼器,并在反向傳播中引入初始狀態一致性正則化項,以進一步增強對加速度信息的敏感性。

第三,盡管與先進的基線相比,ProgIP的手腕位置誤差較低,但在某些情況下依然與ground truth存在明顯差異。未來應開發有效的補償機制來優化手部位置估計,因為手部位置在虛擬現實應用中至關重要。最后,姿態估計方法通常需要應用于各種實際場景和環境中。因此,將姿態估計技術與特定應用場景結合并解決實際需求是一個需要考慮的重要問題。

相關論文:Progressive Inertial Poser: Progressive Real-Time Kinematic Chain Estimation for 3D Full-Body Pose from Three IMU Sensors

https://arxiv.org/pdf/2505.05336

總的來說,ProgIP是一種將人體動力學模型與神經網絡相結合、僅使用佩戴在頭部和手腕的三個IMU傳感器的姿態估計方法。ProgIP通過增加運動鏈深度逐步重建全身運動,其TE-biLSTM編碼器和基于MLP的解碼器有效學習并映射了人體運動的時間相關性特征。在多個公共數據集上的大量實驗表明,ProgIP優于先進方法,并通過生成逼真合理的運動滿足了實時操作的要求。所提出的僅依賴三個IMU傳感器的解決方案為實際的全身虛擬現實應用提供了經濟且穩定的技術支持。