可以在沒(méi)有額外傳感器的情況下增強(qiáng)手指追蹤
(中國(guó)AI網(wǎng) 2025年06月27日)利用歷史關(guān)節(jié)位置/旋轉(zhuǎn)連續(xù)預(yù)測(cè)手指關(guān)節(jié)運(yùn)動(dòng)在一系列的應(yīng)用中至關(guān)重要,特別是與虛擬現(xiàn)實(shí)相關(guān)的應(yīng)用。然而,手指的運(yùn)動(dòng)是高度清晰的,具有多個(gè)自由度,這使得它們很難建模和預(yù)測(cè)。為了解決這一挑戰(zhàn),悉尼大學(xué)團(tuán)隊(duì)提出了一種物理啟發(fā)的神經(jīng)網(wǎng)絡(luò)來(lái)準(zhǔn)確預(yù)測(cè)人類手指運(yùn)動(dòng)。
所提出的編碼器包括用于生成過(guò)濾速度和加速度的運(yùn)動(dòng)學(xué)特征提取器和遵循線性運(yùn)動(dòng)學(xué)的基于物理的編碼器。模型設(shè)計(jì)為跨預(yù)測(cè)時(shí)間實(shí)現(xiàn),因此它可以無(wú)縫地提供連續(xù)的預(yù)測(cè)。基于圖形的解碼器用于學(xué)習(xí)手指關(guān)節(jié)之間的拓?fù)溥\(yùn)動(dòng),以解決更高程度的手指關(guān)節(jié)。
在虛擬現(xiàn)實(shí)環(huán)境中,團(tuán)隊(duì)展示了模型性能的優(yōu)越性。這種新穎的方法可以在沒(méi)有額外傳感器的情況下增強(qiáng)手指追蹤,實(shí)現(xiàn)了預(yù)測(cè)交互,如觸覺(jué)重定向和提高預(yù)測(cè)渲染質(zhì)量。

人體運(yùn)動(dòng)預(yù)測(cè)在不同領(lǐng)域有很多應(yīng)用,如虛擬現(xiàn)實(shí)。這種方法允許系統(tǒng)理解人類行為并產(chǎn)生逼真的運(yùn)動(dòng)。它允許人們有機(jī)會(huì)以更直觀和身臨其境的方式與系統(tǒng)進(jìn)行交互。
人體運(yùn)動(dòng)預(yù)測(cè)既可以包括全身運(yùn)動(dòng),或可以包括特定身體部位,包括上肢、下肢和手指。特別是在虛擬現(xiàn)實(shí)中,手和手指的交互已經(jīng)成為與虛擬對(duì)象交互的一種廣泛使用方法。盡管手指追蹤在這種交互方式中發(fā)揮著至關(guān)重要的作用,但由于遮擋、不正確的圖形渲染和離散運(yùn)動(dòng)模糊,手指追蹤技術(shù)依然存在顯著的錯(cuò)誤和延遲,從而導(dǎo)致用戶體驗(yàn)不佳。
在肢體或全身運(yùn)動(dòng)追蹤等領(lǐng)域,運(yùn)動(dòng)預(yù)測(cè)模型能夠改善這類追蹤問(wèn)題。然而,手和手指具有諸多自由度的運(yùn)動(dòng),而手指運(yùn)動(dòng)的性質(zhì)是高度明確的,使手和手指之間的相互作用的建模更具挑戰(zhàn)性。
準(zhǔn)確和連續(xù)的手指運(yùn)動(dòng)預(yù)測(cè)模型可以幫助預(yù)渲染圖形,預(yù)測(cè)用戶行為,實(shí)時(shí)糾正錯(cuò)誤。具體來(lái)說(shuō),連續(xù)預(yù)測(cè)在上述應(yīng)用程序中至關(guān)重要,因?yàn)樗梢詾轭A(yù)測(cè)提供靈活性。與只預(yù)測(cè)特定時(shí)間段運(yùn)動(dòng)的模型不同,連續(xù)時(shí)間模型可以預(yù)測(cè)手指如何連續(xù)運(yùn)動(dòng),而無(wú)需額外的訓(xùn)練步驟。
這對(duì)于流暢的運(yùn)動(dòng)預(yù)測(cè)至關(guān)重要,尤其是當(dāng)用戶用手指與虛擬對(duì)象交互時(shí)。由于這種模型的學(xué)習(xí)權(quán)值不需要隨預(yù)測(cè)時(shí)間而改變,所以可稱之為跨時(shí)間實(shí)現(xiàn)模型。線性運(yùn)動(dòng)方程集是自由體運(yùn)動(dòng)物理學(xué)中最強(qiáng)大的工具之一,能夠進(jìn)行精確的跨時(shí)間預(yù)測(cè)。以其作為靈感,團(tuán)隊(duì)設(shè)計(jì)了模型架構(gòu)來(lái)捕獲手指關(guān)節(jié)運(yùn)動(dòng)的運(yùn)動(dòng)學(xué)。
然而,由于肌肉施加的力量、人類意圖的變化以及關(guān)節(jié)之間的相互聯(lián)系,每個(gè)手指關(guān)節(jié)并不單獨(dú)遵循相關(guān)方程。這就需要非線性預(yù)測(cè)模型。為了從歷史數(shù)據(jù)中提取每個(gè)關(guān)節(jié)的運(yùn)動(dòng)學(xué)特征(即角速度和角加速度,如圖1綠框所示),研究人員使用了運(yùn)動(dòng)學(xué)特征提取器模塊,如圖1綠色背景所示。
他們使用輔助損失函數(shù)來(lái)保證這些運(yùn)動(dòng)特征的精確計(jì)算。為了加強(qiáng)運(yùn)動(dòng)約束和編碼每個(gè)關(guān)節(jié)的時(shí)間特征,使用基于跨時(shí)間物理的編碼器模塊(圖1黃色背景)。為了學(xué)習(xí)關(guān)節(jié)之間的空間域互連,應(yīng)用圖卷積網(wǎng)絡(luò)作為解碼器(圖1藍(lán)色背景)來(lái)提取不同手指關(guān)節(jié)之間的拓?fù)溥\(yùn)動(dòng)信息。

鑒于每個(gè)手指關(guān)節(jié)與其父關(guān)節(jié)保持關(guān)聯(lián)關(guān)系,研究人員建立了解碼器的邊緣連接,以逼真的方式學(xué)習(xí)和預(yù)測(cè)手指如何移動(dòng)。結(jié)合這三個(gè)組成部分,他們得出了一個(gè)跨時(shí)間深度學(xué)習(xí)模型,稱為TA-GNN。它能夠?qū)W習(xí)每個(gè)手指關(guān)節(jié)內(nèi)部和跨越的時(shí)間和拓?fù)湫畔ⅰA-GNN的體系結(jié)構(gòu)如圖1所示。
可用于全身運(yùn)動(dòng)預(yù)測(cè)的大量大規(guī)模數(shù)據(jù)集是這一領(lǐng)域普及和快速發(fā)展的關(guān)鍵因素之一。但相比之下,手指運(yùn)動(dòng)數(shù)據(jù)集的數(shù)量有限,特別是對(duì)于VR應(yīng)用。可用的數(shù)據(jù)集在準(zhǔn)確性和泛化方面面臨限制,因?yàn)樗鼈兪鞘褂脦в袘?yīng)變計(jì)的數(shù)據(jù)手套收集。團(tuán)隊(duì)進(jìn)行了一項(xiàng)用戶研究,在VR環(huán)境中收集了一個(gè)名為VRHands的新型手指動(dòng)捕數(shù)據(jù)集。在VRHands數(shù)據(jù)集和現(xiàn)有Re:InterHand數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)表明,與基線相比,TA-GNN具有顯著的改進(jìn)。
相關(guān)論文:TA-GNN: Physics Inspired Time-Agnostic Graph Neural Network for Finger Motion Prediction
https://arxiv.org/pdf/2503.13034
總的來(lái)說(shuō),團(tuán)隊(duì)提出了一種基于物理的跨時(shí)間深度學(xué)習(xí)模型,并從歷史關(guān)節(jié)角度預(yù)測(cè)手指運(yùn)動(dòng)。模型包括一個(gè)運(yùn)動(dòng)學(xué)特征提取器,用于從歷史運(yùn)動(dòng)數(shù)據(jù)中生成角速度和角加速度。然后是基于運(yùn)動(dòng)學(xué)方程的基于物理的編碼器,它分別預(yù)測(cè)每個(gè)關(guān)節(jié)的未來(lái)位移角。然后,采用基于圖的解碼器學(xué)習(xí)手指關(guān)節(jié)間的拓?fù)溥\(yùn)動(dòng)信息。
模型采用跨時(shí)間方法設(shè)計(jì),將其權(quán)重與指定的預(yù)測(cè)時(shí)間段解耦。這使得單個(gè)模型可以提前400毫秒預(yù)測(cè)未來(lái)的運(yùn)動(dòng),無(wú)需分別對(duì)每個(gè)時(shí)間段進(jìn)行訓(xùn)練。與基線方法相比,TA-GNN能夠顯著降低手指運(yùn)動(dòng)預(yù)測(cè)誤差。這種新穎的方法在沒(méi)有額外傳感器的情況下增強(qiáng)了手指追蹤,實(shí)現(xiàn)了預(yù)測(cè)交互,如觸覺(jué)重定向和提高預(yù)測(cè)渲染質(zhì)量。

