自動為整個VR場景設計物體級振動觸覺反饋

中國AI網 2025年08月14日)觸覺反饋有助于創造沉浸式的虛擬現實體驗。然而,為VR場景中的所有物體及其各自排列設計這種反饋,依然是一項耗時的工作。在一項研究中,德國薩爾大學和馬克斯·普朗克信息學研究所團隊提出了Scene2Hap。這是一個以大語言模型LLM為核心的系統,能夠基于物體的語義屬性和物理上下文,自動為整個VR場景設計物體級振動觸覺反饋。

Scene2Hap采用多模態大語言模型,根據VR場景中的多模態信息,估算每個物體的語義和物理上下文,包括其材質屬性和振動行為。然后,利用相關語義和物理上下文,通過生成或檢索音頻信號并將其轉換為振動觸覺信號,來創建可信的振動觸覺信號。為了在VR中實現更逼真的觸覺空間渲染,Scene2Hap考慮估算的材質屬性(如密度)和物理上下文(如虛擬物體之間的距離和接觸關系),計算振動信號從源頭在場景中物體間的傳播和衰減。

兩項用戶研究的結果證實,Scene2Hap能成功估算VR場景的語義和物理上下文,并且振動物理傳播建模提高了可用性、材質感知度和空間感知能力。

德國團隊開發大語言模型VR觸覺反饋系統Scene2Hap  第1張

設計3D虛擬世界可能是一個繁瑣且耗時的過程,尤其是在逼真的虛擬現實場景中存在物體數量眾多且種類多樣的情況下。為了幫助VR設計師能夠以可擴展的方式生成這些3D虛擬世界,業界已經提出了一系列的方法,并使用人工智能或大語言模型LLM來自動設計包含多個虛擬物體的整個場景的視覺、音頻或行為。

然而,設計VR場景的觸覺屬性依然具有挑戰性。所以,研究人員提出了生成式機器學習模型,用于根據手動制定的文本提示或圖像(例如使用生成對抗網絡或LLM)來設計觸覺信號。盡管相關研究為觸覺信號的自動生成提供了寶貴的見解,但它們并未涵蓋兩個關鍵方面:首先,它們未能充分利用VR場景中物體的完整語義信息。例如,廚房場景中的一個鍋如果放在櫥柜里,它可能不會振動,但當如果是在爐上燒水時則可能會劇烈振動;其次,它們沒有考慮物體的物理上下文以及場景中多個物體之間的關系。例如,如果一部手機在桌子上嗡嗡作響,用戶實際感受到的振動取決于用戶觸摸桌子的位置以及桌子的材質屬性;在皮革桌子上的振動衰減比在玻璃桌子上更快。

換句話說,理解物體語義和物理場景上下文對于推進VR中的觸覺設計至關重要。

為了克服所述限制,德國薩爾大學和馬克斯·普朗克信息學研究所團隊提出了Scene2Hap。這是一個以LLM為核心的系統,能夠基于物體的語義屬性和物理上下文,自動設計整個VR場景的物體級振動觸覺反饋。

在這項研究中,研究人員特別專注于生成振動觸覺信號(這是VR中最常用的觸覺反饋形式),相關信號由VR環境中的主動源(如機器或振動物體)觸發。對于給定的VR場景,Scene2Hap利用多模態LLM自動估算每個物體的語義(例如物體是否振動以及如何振動)和材質屬性(例如密度)。

它使用場景中物體的多模態信息(如圖像、名稱)來查詢LLM(團隊將這一過程稱為基于LLM的觸覺推斷)。推斷出的物體屬性用于創建一個可信的音頻信號,而信號隨后通過一個諧振頻率為250Hz的狀態變量濾波器后,并用作振動觸覺信號。

Scene2Hap同時通過考慮物體的物理上下文(鄰近物體以及振動在物體間的傳播,這取決于LLM估算的材質屬性),計算用戶在場景中特定觸摸點感受到的逼真振動觸覺信號。Scene2Hap并非分配固定的振動信號,而是基于用戶的觸摸位置和LLM推斷的材質屬性來實時調制信號(團隊將這個過程為物理感知的觸覺渲染)。最終的振動反饋通過手持式振動觸覺設備呈現給用戶。

兩項研究的結果表明:(1) 基于LLM的觸覺推斷能夠成功理解VR場景中各種物體的語義和物理上下文;(2) 物理感知的觸覺渲染通過提供可信的振動觸覺信號和振動衰減,顯著提升了材質感和空間感知能力,從而為提供沉浸式VR觸覺體驗做出了重要貢獻。

德國團隊開發大語言模型VR觸覺反饋系統Scene2Hap  第2張

兩項評估共同證明了Scene2Hap的有效性和魯棒性。研究1證實,該系統能夠基于自動提取的多模態場景數據,準確推斷虛擬物體的語義和物理屬性。這包括對物體用途和上下文的細致解讀,超越了傳統基于規則的系統或物體元數據所能提供的信息。研究2表明,當這些推斷的屬性用于驅動觸覺渲染時,能帶來用戶體驗的可衡量提升——尤其是在空間感知方面,同時也提升了材質感知度和可用性。這些結果共同驗證了Scene2Hap的流程:從自動數據提取,到基于LLM的推斷,再到基于物理的、具有感知意義的觸覺輸出。

Scene2Hap的一個獨特優勢在于其系統架構,所述架構結合了基于LLM的推斷與物理建模。其核心是系統對場景中的每個物體提出兩個不同的問題:“它如何振動?”,以及“它的材質屬性是什么?”。第一個問題的答案用于檢索或生成代表物體振動的音頻文件。第二個問題的答案提供了密度和剛度等材質屬性,并用于物理模型,以確定振動如何在相互連接的表面間傳播。

然后,模型用于實時調制和衰減實時音頻流,使用戶感受到與其觸摸位置和材質相適應的振動。這種語義推理與實時物理建模的獨特結合,使Scene2Hap能夠生成自適應的、連貫的觸覺反饋,且無需手動調整。

這種架構為VR設計師帶來了實際效益。Scene2Hap能夠快速部署觸覺體驗,無需手動調整參數或具備專門的領域知識。它使VR創作者能夠大規模構建豐富的多模態環境——即使在包含許多復雜物體的場景中——使觸覺反饋作為一種設計素材更具可及性。

總之,Scene2Hap在一個新穎的架構中提供了基于LLM的觸覺推斷和物理感知的觸覺渲染,而相關貢獻使得Scene2Hap成為可擴展觸覺設計的新方向:它將語義推斷與物理建模相結合,以生成自適應的、逼真的反饋。研究人員相信,這種混合方法有助于使豐富、實時的觸覺體驗成為未來虛擬和混合現實體驗的默認能力。

德國團隊開發大語言模型VR觸覺反饋系統Scene2Hap  第3張

當然,Scene2Hap存在一定的局限性。首先,物體語義目前僅限于場景級用途和二元振動行為;未來的工作可以支持更豐富的物體狀態、部件級推理或基于事件的觸發。其次,盡管物理模型支持實時傳播,但它假設了簡化的幾何形狀,如果性能允許,采用更高保真度的模型可能更有益。第三,音頻質量依賴于檢索/生成方法(這超出了我們的研究范圍),未來的工作可以通過基于LLM的高級選擇策略來提供質量控制。

最后,所提出方法專門設計用于體驗由VR場景中的機械、機器或其他主動源觸發的觸覺振動。在未來的工作中,團隊希望將這一方法可以擴展到能滿足由用戶與材質交互(如摩擦或紋理)引起的觸覺體驗的系統。

相關論文:Scene2Hap: Combining LLMs and Physical Modeling for Automatically Generating Vibrotactile Signals for Full VR Scenes

https://arxiv.org/pdf/2504.19611

總的來說,Scene2Hap是一個以LLM為核心的系統,能夠基于物體的語義屬性和物理上下文,自動為整個VR場景設計物體級振動觸覺反饋。Scene2Hap包含兩大技術貢獻:基于LLM的觸覺推斷和物理感知的觸覺渲染。

Scene2Hap執行基于LLM的觸覺推斷,相關過程采用多模態大語言模型,根據VR場景中的多模態信息,估算每個物體的語義和物理上下文,包括其材質屬性和振動行為。然后,利用語義和物理上下文,通過生成或檢索音頻信號并將其轉換為振動觸覺信號,以創建可信的振動觸覺信號。

為了在VR中實現更逼真的觸覺空間渲染,Scene2Hap執行實時物理感知觸覺渲染,并考慮估算的材質屬性(如密度)和物理上下文(如虛擬物體之間的距離和接觸關系),計算振動信號從源頭在場景中物體間的傳播和衰減。

兩項研究的結果證實:(1) 基于LLM的觸覺推斷能夠成功理解VR場景中各種物體的語義和物理上下文;(2) 物理感知的觸覺渲染通過提供可信的振動觸覺信號和振動衰減,顯著提升了材質感和空間感知能力,從而為提供沉浸式VR觸覺體驗做出了重要貢獻。