免手操作的移動機制
(中國AI網 2025年08月04日)在虛擬現實環境中,移動機制在塑造用戶體驗方面起著至關重要的作用。特別是,免手操作的移動機制提供了一個有價值的選擇,通過支持無障礙性和解放用戶對手持控制器的依賴。傳統的語音方法往往依賴于嚴格的命令集,限制了交互的自然性和靈活性。在一項研究中,慕尼黑工業大學提出了一種由大型語言模型LLM驅動的新型移動機制,以允許用戶使用具有上下文感知的自然語言來導航虛擬環境。
團隊評估了三種方法:基于控制器的傳送,基于語音的轉向和語言模型驅動的方法。評估措施包括眼動追蹤數據分析,包括通過SHAP分析進行可解釋的機器學習,以及關于可用性、臨場感、暈動癥和認知負荷的標準化問卷,以檢查用戶的注意力和參與度。
研究結果表明,LLM驅動的移動機制具有與傳送可媲美的可用性,臨場感和暈動癥得分,展示了其作為一種舒適的,以自然語言為基礎的,免手操作方案的新潛力。另外,它增強了用戶在虛擬環境中的注意力,而這意味著更大的參與度。

隨著虛擬現實技術的飛速發展,VR系統開始廣泛應用于教育、娛樂、醫療和培訓等各個領域和用途。沉浸式環境中的用戶交互質量對于積極塑造用戶體驗至關重要。用戶體驗的一個重要方面是移動機制,它指的是用戶如何在虛擬環境中移動。移動記住影響一系列的因素,包括用戶沉浸感,任務表現,整體舒適度,更重要的是暈動癥。
在各種技術中,使用手持控制器的傳送是最廣泛采用的方法之一。但在用戶必須騰出雙手的情況下,例如在多任務處理或專注于可訪問性的應用程序中,免手操作尤為重要。
為了解決這個問題,研究人員提出了不同輸入方式的不同技術,包括語音,注視和手勢。其中,基于語音的系統提供了一種自然而直觀的替代方案,其技術包括基于語音的連續轉向和通過口頭目的地輸入控制的傳送方法。然而,以前的方法主要依賴于預定義的命令集和基于規則的映射,而這需要用戶不自然地說話,限制了交互體驗的靈活性和直觀性,并會對用戶滿意度、可用性和沉浸感產生負面影響。
大型語言模型LLM的最新進展為在VR中開發更自然和智能的基于語音的交互系統提供了新的機會。相關模型可以準確地解釋VR中以自然語言表達的用戶指令,并有效地識別意圖,特別是當環境上下文納入提示時。另外,由于它們支持多種語言,所以可以在相同的系統設置中啟用多語言交互,并在支持用戶多樣性的同時,以最小的努力使虛擬環境更加通用。
在研究中,慕尼黑工業大學團隊提出了一種創新方法,利用LLM來解決現有基于語音的技術的關鍵限制,從而在VR中實現基于自然語言的免手操作導航。基于轉向的語音方法通常依賴于連續的移動,這可能會導致不舒服,并且需要用戶使用僵硬的預定義命令說話。盡管基于遠程傳送的語音方法通過即時移動來減少暈動癥,但它們依然依賴于基于規則的語法結構,并且通常需要手動標記對象或用于語音識別和語義理解的預定義映射。
相比之下,團隊提出的方法允許用戶表達自由形式的口頭指令,無需記憶固定的命令或語法結構。系統使用從虛擬環境中動態提取的上下文信息(如對象名稱、顏色和位置)實時解釋指令,從而實現靈活、直觀和可擴展的導航,無需手工制作規則或注釋。為了評估方法的有效性,研究人員在一個類似城鎮的虛擬環境中進行了用戶研究,比較了三種移動技術:傳送,通過固定命令基于語音的轉向,以及LLM驅動的運動。其中,通過標準化問卷和使用眼動追蹤的行為數據收集用戶反饋。
問卷通過SUS測量可用性,通過IPQ測量臨場感,通過NASA-TLX測量認知負荷,通過CSQ-VR測量暈動癥。眼動追蹤分析提供了對認知行為、視覺注意力和參與的見解。另外,訓練機器學習模型對基于眼動追蹤特征的移動技術進行分類,并通過使用SHAP分析應用可解釋的人工智能來探索每個特征如何對模型的決策做出貢獻。
這一過程幫助團隊確定了不同技術中最具影響力的特征。研究結果表明,正如預期的那樣,傳送是最快的技術,而LLM驅動的方法比基于語音的轉向方法的完成時間略快,在任務的后半段觀察到更大的改進,表明適應性增強。在用戶體驗方面,LLM驅動的移動技術提供了與基于語音的轉向相似的可用性水平,同時改善了空間臨場感,并保持了較低的暈動癥水平。
眼動追蹤分析顯示,LLM驅動的方法帶來了更少但更長時間的注視和更短的掃視持續時間,這表明與連續移動相比,視覺參與更集中。同時,SHAP分析表明,注視行為因移動技術而異,突出顯示注視持續時間、掃視動態和瞳孔直徑是區分用戶視覺反應的關鍵特征,這取決于他們如何導航虛擬環境。所以,這項研究確定了LLM驅動方法作為傳統技術的自然替代方案。
在性能和用戶體驗方面,盡管瞬間傳送是最快的方法,但它依賴于手動控制器,不適合免手操作場景。在免手方法中,基于語音的轉向最初能夠更快地導航到第一個目標,但參與者很快適應了LLM驅動方法,從而在第二階段獲得了更高效的表現,并更快地完成了整體任務。這種學習效應表明,盡管用戶完全不熟悉這種移動形式,但他們很快適應了自然語言系統,并能夠有效地利用其靈活性。
這三種方法在可用性、認知負荷、暈動癥和臨場感方面的結果都相當,沒有觀察到顯著差異。結果表明,這兩種基于語音的移動方案對用戶來說都是有效的,并且在VR中以無障礙性為重點的情況下可以像傳送一樣有用。傳送獲得了最高的可用性分數。兩種基于語音方法的得分都在75到80之間。結果表明,這兩種免手技術都受到了用戶的普遍歡迎,但它們的效率和易用性都不如傳送。與基于語音的連續移動相比,LLM驅動的方法可以實現即時傳送到目標位置,減少惡心和前庭不適。這與先前的研究結果一致,即持續運動更容易引起暈動癥。盡管所有的參與者都達到了相同的目標,但使用瞬間移動的人完成任務的速度要快得多,使得他們在虛擬環境中的時間明顯減少,幾乎是其他條件下的四倍。
這種持續時間的減少可能導致了在瞬間移動的情況下,暈動癥的總體得分較低。有趣的是,在動眼肌不適的情況下,這種模式正好相反,語音驅動的得分略低。這可能表明,與其他技術中使用的突然位置變化相比,它穩定、連續的移動對視覺系統的壓力更小。傳送需要最少的認知努力,而LLM驅動的方法比基于語音的轉向顯示出略高的認知需求。在瞳孔直徑的測量中同樣觀察到類似的趨勢。
LLM驅動條件的增加可能反映了計劃上下文相關和有效命令所需的心理努力,這在傳送或依賴于簡單和可重復輸入集的基于命令的方法中是不期望的。然而,它可以促進更深層次的認知參與,鼓勵更積極地探索沉浸式虛擬環境,潛在地有助于在LLM驅動的運動條件下提高臨場感。
另外,盡管自由形式的命令最初可能會施加更高的認知負荷,但這種需求可能會隨著經驗的增加而減少。同時,盡管與上下文命令相關的認知負荷略高,但使用LLM方法的參與者報告了最高水平的空間臨場感。與基于語音相比,主動與環境交互以提供上下文感知指令可能會增強他們的臨場感。相比之下,基于語音的轉向獲得了最高的真實感評分,可能是因為它的連續行走模式更接近于模擬現實世界的移動。

除了標準化問卷之外,參與者對所有運動策略都提供了積極的定性反饋。傳送通常被描述為直觀且易于適應,有助于流暢的體驗。基于語音的轉向是自然的,因為它與現實世界的行走相似,并且在導航過程中有連續運動的感覺。然而,參與者偶爾會嘗試使用超出預定義集合的命令變體,而這有時會導致無法識別的輸入。
LLM驅動的方法得到了特別積極的反饋。很多參與者認為它非常直觀,引人入勝,使用起來很愉快。事實上,在演示場景中,有的用戶嘗試了不同的措辭,表明開放式輸入風格鼓勵好奇心,探索和更深入地參與虛擬環境。但在少數情況下,系統無法理解指令,主要是由于語音轉文本模塊的限制。
語音導向導致的注視率明顯更高,這表明在連續導航過程中視覺掃描和注意力需求增加。這一結果可能歸因于不斷移動的性質,用戶需要積極地監視他們的方向并快速搜索環境,這通常導致更短和更頻繁的注視。同樣,平均注視時間作為穩定的視覺注意和認知參與的指標。傳動的注視時間最長,其次是LLM,而基于語音的轉向條件的注視時間最短。相關眼球運動模式,特別是在傳送和LLM驅動的條件下,頻率較低但注視時間較長,表明用戶能夠更有意識地計劃他們的行動,并且通常意識到他們的預期目的地。
LLM的平均掃視持續時間顯著縮短,表明LLM驅動條件下的參與者進行了更有目的的視覺探索。另外,盡管瞳孔直徑主要認為是認知負荷的指標,但瞳孔大小的增加可能反映出虛擬環境中參與度或覺醒程度的提高。在LLM驅動的條件下,更高的空間和一般存在得分進一步支持了這一發現,表明自然語言互動促進了更深層次的認知參與和沉浸。
分類模型證明了使用眼動追蹤特征實時推斷用戶交互模式的可行性,因為相關特征在不同的移動技術中是不同的。SHAP分析表明,注視時間、掃視動態和瞳孔直徑是區分用戶行為的關鍵指標。不同的眼動模式反映了視覺注意力和認知參與的變化,可以作為自適應VR系統的客觀指標。
LLM移動方法為殘疾用戶提供了高度可訪問的替代方案,在可用性和舒適性方面與傳送和固定命令方法相匹配。憑借其固有的多語言支持,用戶可以用自己的語言自然地進行交互,無需依賴于特定于語言的短語。這消除了特定于環境的調整或手動配置的需要,使系統具有高度的適應性和包容性。這種靈活性在醫療培訓、教育和遠程協作等環境中尤其有價值,隨著VR的普及,環境的無障礙性和易用性至關重要。
然而,在現實場景中實現LLM方法的一個挑戰是LLM輸出固有的動態性和潛在的不可預測性,但它們在廣泛的條件下表現出色。由于它們不是完全可控的,所以確保一致和可預測的行為可能需要額外的錯誤處理機制。這些可能包括限制移動范圍、驗證目標坐標,或者在模型輸出不明確或指向不可導航區域時保持用戶在適當位置。
另一個挑戰是在LLM和語音到文本模型的準確性和性能之間找到適當的平衡。盡管通過使用較小的模型來減少延遲可以提高響應性,但保持強大的整體性能至關重要。
相關論文:Exploring Context-aware and LLM-driven Locomotion for Immersive Virtual Reality
https://arxiv.org/pdf/2504.17331
總的來說,團隊提出了一種LLM驅動的VR移動技術,使用自然語言指令實現即時傳送,增強了可達性,并解決了經常與連續語音驅動相關的暈動癥。為了評估這種方法的有效性,團隊對三種技術進行了比較評估:傳動、通過固定命令進行基于語音的轉向和LLM驅動方法。
團隊使用眼動追蹤分析來深入了解用戶的注意力、參與度和認知過程,并使用標準化問卷(包括SUS、IPQ、CSQ-VR和NASA-TLX)來補充這一分析,分別評估可用性、臨場感、暈動癥和認知工作量。
盡管傳送依然是最有效的移動方法,但它通常不適合免手操作場景。團隊提出的LLM驅動方法提供了一種很有前途的替代方案,它將自然語言交互與上下文感知和即時運動相結合,同時固有地支持多語言作為優勢。盡管它需要更多的認知努力,但它提高了沉浸感和舒適度,特別是在減少暈動癥方面。
總體而言,研究結果表明,LLM驅動方法是VR環境中直觀,無障礙和沉浸式免手導航的替代方案。未來的研究可以研究個性化技術,例如根據用戶偏好或先前的交互調整LLM行為,以提高可預測性和可用性。

