改善基于注視的頭顯交互

中國AI網 2025年08月11日)眼+手交互,亦即注視充當指向,手的動作觸發選擇,正逐漸成為XR設備的一種重要交互方式。然而,由于眼手協調誤差導致的目標選擇失敗限制了其有效性。針對這個問題,蔚山科學技術院和韓國科學技術院團隊研究了任務復雜性如何影響眼手協調誤差,并提出了一種算法來減輕模式之間的輸入錯位。

具體來說,他們研究了具有不同視覺(感知提示目標vs搜索)和手動(拇指-中指捏vs多手指捏)復雜性的任務,并發現手指晚觸占錯誤的86.57%。另外,人為復雜性的增加與錯誤率的升高有關。基于相關見解,他們開發了一種能夠檢測延遲觸發錯誤的分類器,平均準確率為97.31% (SD 0.18)。通過將注視點定義為手指點擊前最接近的目標注視點,算法糾正了大部分(94.61%)眼手輸入對齊錯誤,從而改善了基于注視的頭顯交互。

韓國研究團隊提出GazeHandSync算法改善頭顯眼手交互誤差  第1張

由于在增強交互技術等領域具有潛力,監測用戶的注意力并為無縫認證提供有效的數字生物標志,眼動儀越來越多地集成到頭戴式顯示器。特別是,在頭顯中基于注視的交互已經獲得廣泛探索,因為它提供了諸多優勢,包括可以提高速度,減少錯誤,實現更自然等等。

使用注視作為指針瞄準目標并使用捏手勢激活選擇已獲得商業頭顯設備的廣泛采用。這種方法允許簡單的手指點擊命令,避免依賴外部控制器或大幅度身體運動,并提供了一種有效的目標選擇機制,適用于廣泛的典型環境。然而,盡管眼手聯合交互具有優勢,但注視和手輸入之間的協調誤差依然是一個重大挑戰,限制了技術的有效性和可靠性。

協調錯誤通常表現為晚觸發或早觸發的動作,其中手動輸入要么跟隨視線轉移到新目標,要么先于視線到達預期目標。這種錯誤代表了這種雙峰輸入技術的一個基本問題。事實上,根據先前研究,這一技術發生的大多數錯誤都是由于這種不對齊的輸入。另外,相關偏差可以高度多樣化,從60ms到200ms。即便是在執行簡單的任務時,比如簡單地注視和觸摸目標。

為了減輕錯誤,業界已經提出了各種補償策略。相關方案通常建議使用注視和手部模式來預測和調整手部輸入的時間。然而,它們目前只是推測性,其有效性尚未得到檢驗。另外,先前的研究缺乏實時檢測時間偏移的綜合方法,特別是在不同的任務復雜性下。

為了解決這一差距,蔚山科學技術院和韓國科學技術院團隊首先研究了不同的用戶界面交互復雜性,在手動輸入和視覺任務方面如何影響眼手協調誤差,并提出了一種檢測問題并補償由此產生的時間偏差的系統。

具體來說,他們將視覺任務分為簡單的順序提示選擇任務和反映典型UI交互的復雜視覺搜索任務。這個面向UI的可視化搜索任務包括定位用戶已經熟悉的目標,類似于選擇一個經常使用的菜單項或按鈕。研究人員將手動輸入任務分為基本的單指選擇任務和更復雜的任務,包括不同的功能分配給不同的手指,類似于操作鼠標的左鍵和右鍵。

研究的結果揭示了值得注意的模式。首先,大多數注視手協調錯誤(86.57%)涉及在用戶的視線離開預定目標后觸發所需的手指點擊。另外,團隊觀察到,增加手動輸入復雜性(例如使用多指捏手勢)會導致眼手協調錯誤率升高,盡管視覺復雜性沒有顯著影響。

基于研究結果,他們提出了GazeHandSync,一種檢測和補償延遲觸發錯誤的算法。為了實現這一點,團隊設計了一個隨機森林分類器,使用13個與組合式和手部行為相關的特征來確定輸入是否為延遲觸發,平均準確率達到97.31% (SD 0.30)。對于使用此分類器歸類為晚觸發目標選擇的事件,將手指觸摸的選擇點設置為緊接前固定的位置。

所述方法將注視手協調誤差從12.10%降低到5.39%,降低了55.49%。相關發現強調了視覺和手動任務的復雜性如何影響注視手計時誤差,并展示了一種有前途的檢測和校正算法,在注視手交互過程中實現了高速度和準確性。

研究旨在通過解決眼手協調錯誤來增強頭戴式顯示器的相互作用,特別關注后觸發錯誤。所提出的GazeHandSync是一種自適應算法,旨在動態補償注視和手部輸入之間的時間偏移。這一發方案發現證實了后觸發錯誤是主要的眼手協調問題,并證明GazeHandSync可以有效地減輕錯誤,提高了交互的準確性和可靠性。

與傳統的固定偏移方法相比,這一自適應方法提供了卓越的性能,突出了其推進眼手交互范例的潛力。對用戶性能指標的分析顯示,延遲觸發的錯誤占所有注視手協調錯誤的86.57%,平均時間偏移為100.75 ms (SD 94.9)。這種高可變性表明,固定延遲方法是不夠的,而GazeHandSync等自適應方法可能會表現得更好。

UI交互復雜性同樣顯著影響用戶性能:由于廣泛的視覺搜索,更高的視覺復雜性延長了輸入時間,而更高的手動輸入復雜性增加了輸入時間和錯誤率。然而,捏指錯誤率保持在1.61% (SD 3.87)的低水平,并且不受視覺復雜性的影響,這表明多指捏指可能是一種可靠的頭顯輸入法。

韓國研究團隊提出GazeHandSync算法改善頭顯眼手交互誤差  第2張

總體而言,參與者的平均輸入時間為1.13秒,比先前研究報告的1.65秒的任務時間快。然而,由于任務設計和關鍵線索參數(如目標尺寸)的差異,與先前研究的直接比較可能沒有意義。因此,未來的工作應該將這一技術應用于更多樣化的任務。另外,GazeHandSync算法在檢測延遲觸發錯誤方面表現出色,使用一般模型實現了97.31% (SD 0.18)的準確率。

算法根據用戶的注視模式調整注視位置,將總體錯誤率從12.10%降低到5.39%。這種改進超過了固定的85 ms偏移方法的性能,后者產生8.96%的錯誤率。通過動態調整實時輸入模式,GazeHandSync提供了一個靈活的解決方案,可以適應各種UI任務的復雜性和個人行為。

在我們的評估中,梯度增強和隨機森林表現出相似的性能,表明它們的有效性可能取決于特定的數據集和任務。因此,模型參數的進一步微調可以改善錯誤緩解和整體系統性能。另外,個別模型的表現略優于通用模型,平均準確率為97.42%,特別有利于使用通用模型獲得較低準確率的用戶。

盡管數據集變異性增加,LOOCV模型同樣保持了96.78%的平均準確率。重要的是,產生少量錯誤(如P5(0.71%錯誤))的參與者依然可以從所述技術中獲益——所有錯誤都使用針對此類參與者的LOOCV模型進行了糾正。這個結果強調了GazeHandSync的廣泛適用性。

當然,盡管結果很有希望,但特定限制影響了通用性。單一頭顯設備(Meta Quest Pro)的使用限制了對其他平臺的適用性,并且本研究中使用的任務是順序式的,涉及大目標(11.42度),因此將研究擴展到不同的任務類型,目標大小和布局將是有益的。進一步的工作應評估實時適用性、系統響應性、數據分析窗口和計算效率。

同時,需要更深入地研究自適應補償與靜態偏移的用戶體驗,以了解舒適性、直觀性和滿意度。另外,系統可以從解決早期觸發錯誤和集成其他輸入,以及結合深度學習模型來改善錯誤緩解中受益。

最后,小樣本量(20名參與者)限制了更廣泛的見解。未來的研究應該評估GazeHandSync對非典型行為個體(如老年人、漸凍癥患者)的有效性,以確保未來的凝視-手交互系統具有更廣泛的適用性和包容性。

相關論文:GazeHandSync: Mitigating Late-Trigger Errors for Seamless Gaze-Hand Interactions

https://dl.acm.org/doi/pdf/10.1145/3715669.3723126

總的來說,團隊介紹了一種創新的GazeHandSync算法,旨在減輕頭顯指向任務中延遲觸發的眼手協調錯誤。研究結果表明,GazeHandSync可以在沉浸式虛擬環境中提高眼手交互的準確性和用戶體驗,為商用頭顯中更直觀、無縫的多模式交互系統鋪平道路。