一個集成實時神經和生理數據的交互系統,以動態地修改虛擬,增強或混合環境中的觸覺

中國AI網 2025年07月31日)神經自適應觸覺通過動態調整用戶偏好的多感官反饋,為XR體驗提供了一條增強沉浸感的途徑。在一項研究中,德國柏林工業大學和勃蘭登堡工業大學團隊提出了一種神經自適應觸覺系統,通過強化學習(RL)從顯式用戶評分和大腦解碼的神經信號中適應XR反饋。

在一項用戶研究中,參與者與虛擬現實中的虛擬對象進行互動,同時記錄腦電圖(EEG)數據。RL代理根據顯式評分或神經解碼器的輸出調整觸覺反饋。結果表明,RL智能體的表現在不同的反饋源之間具有可比性,這表明內隱神經反饋可以在不需要用戶主動輸入的情況下有效地指導個性化?;谀X電圖的神經解碼器平均F1得分為0.8,支持可靠的用戶體驗分類。這些發現證明了將腦機接口(BCI)和RL結合起來自主適應XR交互,減少認知負荷和增強沉浸感的可行性。

德國研究團隊開發神經自適應觸覺系統以優化XR體驗  第1張

XR有可能創造出深刻的沉浸式體驗。然而,實現最佳體驗需要微調各種設置,從亮度和視場到觸覺反饋和空間音頻。目前,用戶通過與傳統桌面環境非常相似的傳統菜單界面手動調整參數,但這帶來了巨大的摩擦。頻繁的干擾,特別是初始設置,會破壞沉浸感,降低興奮感,并可能降低長期采用率。

另外,傳統設置菜單可能會帶來比破壞即時體驗更高的成本,因為它們將用戶重新定位到一個已知的、古老的計算范式中,與XR的沉浸式本質完全脫節??紤]到所述挑戰,德國柏林工業大學和勃蘭登堡工業大學團隊開始開發一種既能有效地個性化XR體驗,又能最大限度地減少手動配置,并保持沉浸感的方法。

一種有前景的方法是利用強化學習(RL),令自主系統能夠隨著時間的推移學習用戶偏好。然而,它存在其自身的障礙,例如需要人工提供標簽,以及平衡自動化與用戶控制的挑戰。一種解決方案是通過神經和生理數據獲得用戶的隱式反饋,而相關信號可以作為用戶偏好、參與度和沉浸感的實時指示器,而不是依賴于顯式用戶輸入。

研究人員提出了一個定制的多感官XR體驗的神經適應系統。通過“神經適應性XR”,他們介紹了一個集成實時神經和生理數據的交互系統,以動態地修改虛擬,增強或混合環境中的觸覺。團隊研究了如何應用強化學習來調整XR系統的觸覺參數。其中,系統利用腦機接口的輸出作為強化學習的獎勵信號。然后他們測試了系統是否能夠動態調整XR設置,以優化用戶的觸覺體驗,不需要頻繁的人工干預。

在研究中,團隊打算回答三個問題:

(1)我們能否使用基于人類反饋的RL代理來調整觸覺渲染以適應參與者的偏好?
(2)這是否可以通過神經解碼器獲得的隱式標簽實現?
(3)依賴隱式標簽而非顯式標簽可能存在哪些弊端?

團隊通過構建一個神經適應系統來研究上述問題。系統包括一個基于LDA的BCI分類器和一個基于UCB的RL代理。系統設計為在接下來的每次試驗中自動選擇人在環中的多感官體驗。研究人員發現分類器在令人滿意的水平上運行(平均F1分數為~ 0.8),但在實時應用場景中,顯式和隱式獎勵似乎都表現出顯著的噪點(與訓練數據相比),這對RL代理收斂到正確的解決方案提出了重大挑戰。

關于第一個問題,研究人員發現這確實是可能的,但噪點反饋顯著使學習過程復雜化。當在人在循環系統中使用強化學習時——尤其是在像腦電圖這樣的噪點反饋源上學習的智能體——強化學習智能體如何處理探索變得至關重要。與獎勵函數穩定且定義良好的傳統設置不同,這里的智能體必須從既有噪點又可能是非平穩的信號中學習。

團隊選擇將??-greedy與UCB探索結合起來,但省略了額外的噪點處理機制。??-greedy和UCB都是為了確保探索而設計的機制,因此可能被認為是多余的。有人可能會說,要實現更高層次的探索,僅僅增加UCB探索常數??就足夠,從而推動算法更積極地探索。但在實踐中這是不相等的。UCB的探索獎勵自然會隨著行動的采樣而減少,這意味著在噪點或非平穩的環境中,相關的置信區間可能會縮小得太快,這可能導致智能體過早地選擇次優行動。

相比之下,??-greedy策略中的固定收益保證了即使是采樣良好的arm偶爾都會重新審視。Q-learning更新偏離了傳統規則,將每一步直接錨定到最大值??‘??(??’)。盡管引入這種修改是為了加速在噪點反饋下的收斂,但它可以作為一個隱式正則化器:通過過濾掉不穩定的峰值或低谷,它促進了更平滑的學習軌跡。然而,這種錨定可能會使代理偏向于歷史上高價值的行為,并會減少在獎勵隨時間變化的環境中的探索行為。未來的研究可以研究自適應錨定策略或混合更新方案,以保持對噪點的魯棒性,同時保持足夠的探索,特別是在多狀態或非平穩環境中。

在研究中,團隊決定在最終解決方案中不使用擾動獎勵機制,偏離之前的實現。UCB與??-greedy探索的結合已經在諸多試驗中平均了獎勵信號的隨機波動;當噪點適中時,RL代理的固有平均意味著額外的修正(如多數投票)不會顯著改變結果。另外,經驗數據表明,即便沒有干擾獎勵,RL代理都會收斂到一個穩定的閾值,這表明這種額外的機制是多余的,因為標準的探索-開發動態已經達到了清理噪點獎勵的預期效果。

轉到第二個問題,團隊發現了可行性的初步支持,但存在局限性。分類器的設計涉及到在實時使用前大約十分鐘收集的標記腦電圖數據的訓練。然而,這引入了時間過擬合的風險,即訓練模型可能與前一個時間窗口的神經模式適應得太近,如果參與者的認知或神經狀態發生變化,則表現不佳。解決這個問題的一種方法是定期重新校準分類器,最好是在交互塊之間。另外,遷移學習范式可以從跨越多個記錄會話和多個用戶的腦電圖數據中學習,可以幫助緩解腦電圖特有的高度個體間和個體內變異性。實現對不同時間事件和跨用戶的魯棒泛化是實現可擴展的、現實世界部署神經自適應XR系統的關鍵一步。

當前的實現采用了一個簡單的線性分類器,選擇它是因為它的可解釋性和在時間限制下易于部署。然而,未來的研究可以利用更強大的分類方案,包括卷積或循環神經網絡。盡管分類方案的性能可以通過探索更廣泛的特征空間來提高,但研究人員認為直接在原始腦電圖信號上進行訓練特別有趣,因為RL代理可以自主地查詢用戶,所以系統不需要手動調整。

關于第三個問題,團隊觀察到數個挑戰。一個關鍵的困難是用戶提供的標簽隨時間的變化。盡管RLHF算法依賴于穩定的獎勵信號,但參與者的評分并不總是一致。相關分析顯示,隨著實驗的進行,在某些觸覺條件下,主觀得分逐漸發生變化。反復接觸相同的刺激似乎會影響參與者對自己經歷的判斷,并可能會在RL過程中引入偏見。

德國研究團隊開發神經自適應觸覺系統以優化XR體驗  第2張

他們同時觀察到評分分布存在顯著的個體差異。一些參與者表現出一種近乎二元的偏好結構,始終認為一種情況與現實世界的經歷高度一致而拒絕其他情況。其他人表現出更多的分級偏好,這表明他們對感覺整合的感知更細微。這種差異對基于RL的適應提出了挑戰:二元結構支持更快的收斂,而分級響應引入了更多的噪點。未來的研究應該探索解釋進化偏好的適應機制,并幫助強化學習代理避免過度擬合瞬時狀態。

另一個潛在的混淆因素是錨定效應。根據參與者第一次經歷的觸覺狀況,他們隨后的評分可能受到初次接觸的影響。理想情況下,這可以通過初始條件的偽隨機化來緩解,以確保早期體驗的平衡分布。但在研究中,起始條件是完全隨機的,這可能會在評分分布中引入額外的可變性。一個相關的錨定問題源于基于滑塊的評級界面。滑塊總是從中間開始,可能使參與者偏向于中等規模的反應。這可能限制了評分的范圍,尤其是在早期試驗中。在未來的研究中,提供一個沒有預先設置手柄的未標記量表可以減少這種偏見,并促進更深思熟慮的評分。

總之,錨定效應可能使神經解碼器的訓練和解釋進一步復雜化。特別是,它們使得為二元分類器創建可靠的數據分割變得更加困難。對評分分布的簡單探索揭示了高度的異質性:一些參與者表現出二元反應模式,而另一些則表現出更多的分級、單峰分布。

相關論文:Neuroadaptive Haptics: Comparing Reinforcement Learning from Explicit Ratings and Neural Signals for Adaptive XR Systems

https://arxiv.org/pdf/2504.15984

這項研究表明,強化學習代理可以基于顯式用戶評分和隱式基于腦電圖的反饋來個性化多感官XR體驗。通過轉向神經適應性適應,團隊減少了對人工輸入的依賴,旨在最大限度地減少認知摩擦并保持沉浸感。同時,諸如噪點反饋、錨定效應和不斷變化的用戶感知等挑戰揭示了當前方法的重要局限性。

通過更細粒度的事件標記(例如通過眼動追蹤或動作感應)提高學習效率可以加速適應。另外,集成直接在原始腦電圖上訓練的深度學習模型可以消除對手工制作特征和手動解碼器的需求,但這種轉變將引發關于可解釋性和用戶信任的關鍵問題。解決相關挑戰將是推進神經適應性XR系統的關鍵。