通過集成毫米波雷達和IMU進行手勢識別
(中國AI網(wǎng) 2025年05月26日)諸如Apple Vision Pro等先進的頭顯采用底部攝像頭來檢測手勢和輸入,這為用戶在虛擬現(xiàn)實交互中提供了極大的便利。然而,面向底部的攝像頭有時會帶來不便,并可能無意中暴露敏感信息,例如私人身體部位或個人環(huán)境。
為了緩解所述問題,西安交通大學和浙江大學團隊提出了EgoHand。系統(tǒng)通過集成毫米波雷達和IMU進行手勢識別,從而提供了另一種解決方案,并為用戶提供了手勢交互的額外選擇,增強了隱私保護。
為了準確識別手勢,團隊設計了一種基于骨架的兩階段手勢識別方案。在第一階段,采用一種新穎的端到端transformer結(jié)構來估計手關節(jié)的坐標。隨后,利用估計的關節(jié)坐標進行手勢識別。
涉及10名受試者的大量實驗表明,EgoHand檢測手勢的準確率為90.8%。另外,EgoHand在各種跨領域測試中表現(xiàn)出強大的性能。

虛擬現(xiàn)實技術在娛樂、教育、工作等領域提供了新的人機交互方式。VR中最關鍵的技術之一是手勢識別。目前的手勢識別解決方案主要包括攝像頭,例如Apple Vision Pro。但是,下置攝像頭可能會暴露個人隱私,例如用戶的敏感部位和私人居住環(huán)境等。
為了緩解所述問題,西安交通大學和浙江大學團隊提出了EgoHand。系統(tǒng)通過集成毫米波雷達和imu進行手勢識別提供了另一種解決方案,從而為用戶提供了手勢交互的額外選擇,增強了隱私保護。
目前基于毫米波雷達的手勢識別研究通常涉及將雷達固定在固定位置,并從正面水平角度估計手勢。另外,有的研究已經(jīng)探索了使用毫米波雷達來在更動態(tài)的環(huán)境中捕獲人類的運動。
EgoHand是一個在頭部安裝毫米波雷達的系統(tǒng),并用于自中心的手部姿勢估計和手勢識別。這種差異使得現(xiàn)有的毫米波雷達工作不適合EgoHand,這給團隊帶來了兩個挑戰(zhàn)。首先,第一人稱視角VR交互手勢包括單手手勢和雙手手勢,需要自動區(qū)分和識別。
為了解決這個問題,團隊采取了兩個階段的方法。第一階段利用端到端基于transformer的架構來自動估計手部關鍵點,提供能夠直接識別單手或雙手關鍵點信息的端到端解決方案。第二階段利用手部關鍵點信息作為輸入,采用分類方法進行手勢識別。
第二個挑戰(zhàn)來自毫米波信號的不規(guī)則波動,這是由于毫米波設備本身隨著用戶頭部的移動而移動。頭部運動導致雷達改變位置,降低手勢識別的準確性。為了解決這個問題,團隊將IMU與毫米波雷達集成在一起,以補償頭部運動引起的位置變化,并采用特征融合策略。
在EgoHand中,毫米波雷達的原始信號被轉(zhuǎn)換成距離-多普勒熱圖和距離-角度熱圖。數(shù)據(jù)與IMU數(shù)據(jù)一起分別輸入到毫米波雷達編碼器和IMU編碼器中,以學習相應的雷達表示和IMU表示,并進一步連接并依次通過姿態(tài)解碼器和上下文解碼器。
姿態(tài)解碼器生成一組候選手部姿態(tài)特征,而上下文解碼器進一步整合時間上下文信息,通過MLP層生成一組手部關鍵點。
在訓練階段,同步手部運動視頻,并使用谷歌MediaPipe Hand Landmark SDK將視頻處理成手部關鍵點,后期作為訓練監(jiān)督。團隊應用set-based Hungarian匹配算法對MLP生成的手關鍵點進行監(jiān)督優(yōu)化。
在推理過程中,將MLP生成的具有高置信度的手部關鍵點輸入到ResNet50中,以端到端方式獲得手勢識別結(jié)果。

研究人員對10名志愿者在3種不同場景和姿勢下的8種手勢互動進行了評估。在EgoHand中,手部姿態(tài)的平均關節(jié)位置誤差(MPJPE)為72.7 mm,手勢識別準確率為90.8%。
與直接使用ResNet50進行手勢識別相比,兩階段網(wǎng)絡方法將識別精度提高了約30%。在跨人實驗中,手勢識別正確率為83.9%,跨場景實驗正確率為76.9%,交叉手實驗正確率為77.1%。所述結(jié)果證明了EgoHand在域內(nèi)和跨域VR手勢識別中的有效性。
相關論文:EgoHand: Ego-centric Hand Pose Estimation and Gesture Recognition with Head-mounted Millimeter-wave Radar and IMUs
總的來說,EgoHand是一種概念驗證解決方案,用于VR交互手勢識別,并利用毫米波雷達和IMU來保護更多的個人隱私。不過,目前的EgoHand看起來有點笨重,但未來有可能得到改善。另外,毫米波雷達可能暴露健康指標,如呼吸和心率,但這可以通過調(diào)整雷達信號的范圍和角度來減輕。

