多模態(tài)系統
(中國AI網 2025年08月22日)在一項研究中,俄羅斯斯科爾科沃科學技術研究院團隊介紹了一種新穎的多模態(tài)系統HapticVLM。它將視覺語言推理與深度卷積網絡相結合,以實現實時觸覺反饋。HapticVLM利用基于ConvNeXt的材料識別模塊生成魯棒的視覺嵌入,以準確識別物體材料。同時,采用先進的視覺語言模型(Qwen2-VL-2B-Instruct)根據環(huán)境線索推斷環(huán)境溫度。
系統通過揚聲器提供振動觸覺反饋,并通過帕爾貼模塊傳遞溫度線索,從而合成了觸覺感受,彌合了視覺感知與觸覺體驗之間的鴻溝。實驗評估表明,系統在五種不同的聽覺-觸覺模式平均識別準確率達到84.67%。在15種場景下,溫度估計準確率達到86.7%。
當然,團隊坦誠,當前研究存在一定的限制,未來工作將著重于擴展觸覺模式范圍并增加用戶研究,以進一步完善和驗證系統性能。總體而言,HapticVLM向情境感知、多模態(tài)觸覺交互邁出了重要一步,在虛擬現實等領域具有潛在應用價值。

感知和區(qū)分紋理、溫度、硬度等材料屬性是人類與物理世界互動的基本能力。人類的觸覺感知整合了視覺、聽覺和觸覺線索,形成對物體表面的全面理解,從而實現精確的材料識別和交互。盡管計算機視覺和機器學習的最新進展顯著提升了物體檢測和分類能力,但復制細粒度的觸覺感知依然是一個開放的挑戰(zhàn)。特別是,觸覺反饋系統通常依賴于預定義的材質特性或直接的觸覺傳感,限制了其動態(tài)適應新環(huán)境的能力。
隨著視覺語言模型的出現,深度學習在從多模態(tài)輸入推斷物體屬性方面展現出更強的能力。然而,視覺語言模型在觸覺反饋系統中的應用在很大程度上尚未得到探索。針對這個問題,俄羅斯斯科爾科沃科學技術研究院團隊提出HapticVLM。
這是一個新穎的系統,它利用卷積神經網絡進行材料識別,利用視覺語言模型進行環(huán)境評估,以生成實時觸覺反饋。系統通過兩個主要階段運行:首先,一個神經網絡根據物體的視覺特征(即金屬、木材或織物)對其進行材料分類。分類后,系統檢索與識別材料相關聯的預先錄制的表面交互聲音,并使用揚聲器再現相應的觸覺感受。通過整合振動和聽覺線索,HapticVLM使用戶能夠以高度模擬真實世界觸覺交互的方式感知紋理。
第二階段涉及根據環(huán)境條件估計物體的熱屬性。利用VLM驅動的推理,系統分析上下文視覺線索(包括環(huán)境光照和物體反射率)以推斷預期溫度。這個估計的熱響應通過帕爾貼模塊呈現,使用戶能夠體驗到與推斷的材料溫度相對應的動態(tài)熱反饋。
與依賴預定義參數或手工制作材料特性的現有觸覺反饋方法不同,HapticVLM引入了一種數據驅動的方法來動態(tài)合成觸覺感受。先前在觸覺系統中的研究探索了基于振動的紋理模擬和基于力的動覺反饋,但它們在整合實時感知推理方面能力依然有限。
團隊提出的方法通過利用視覺語言模型進行物體識別,而且進行材料屬性推斷(隨后轉化為觸覺反饋),將視覺、聲音和觸覺融合成一個統一的系統。另外,以前的系統對每種材料使用固定溫度值,而HapticVLM的創(chuàng)新之處在于根據環(huán)境線索動態(tài)地從多個預定義的熱狀態(tài)中選擇,確保更真實地模擬溫度變化。
通過將多模態(tài)感知與AI驅動的觸覺反饋相結合,HapticVLM為智能、情境感知的觸覺交互提出了一個新范式,并為下一代觸覺技術奠定基礎,能夠提供比傳統觸覺反饋更豐富、更沉浸、感知更一致的體驗。
圖2a展示了HapticVLM系統材料識別模塊的流程。采用ConvNeXt架構生成材料的嵌入表示。深度學習模型專為從圖像中提取高質量特征表示而設計,確保嵌入準確捕獲每種材料的獨特特性。模型的輸入數據包括包含材料的圖像以及指示其在圖像中位置的掩碼。圖像作為視覺信息的主要來源,而掩碼則突出顯示感興趣區(qū)域,使模型能夠聚焦于相關特征。為了構建用于識別任務的魯棒數據庫,選擇N種材料并對其嵌入進行了預處理。選擇這些材料是為了確保多樣性和相關性,在預處理后計算并存儲其嵌入。
從視頻中實時識別材料是可實現的,這意味著隨著視頻幀順序處理,系統可以快速識別每一幀中的材料而不會出現顯著延遲。對于這些圖像,應用相同的掩碼,假設材料位于每幀的中心位置。這種簡化設定目標材料占據顯著位置,從而在保持準確性的同時降低了計算復雜度。隨后,使用余弦相似度將生成的嵌入與數據庫中的嵌入進行比較。通過計算嵌入之間的余弦相似度,系統能有效判斷給定材料與數據庫中存儲材料的匹配程度,即便在具有挑戰(zhàn)性的場景下都能實現準確識別。這種方法將先進的深度學習技術與實際應用相結合,提升了各種背景下的材料識別能力。
圖2b展示了溫度估計任務。為了確定室溫,采用視覺語言模型并處理由攝像頭捕獲的周圍空間圖像,以及一個基于照片詢問房間溫度的查詢。研究人員選擇了Qwen2-VL-2B-Instruct這個在泛化和高效多模態(tài)學習方面表現出色的開源模型,使其特別適用于需要實時推理的應用。所提出方法利用視覺語言模型的優(yōu)勢有效解釋視覺線索,基于從圖像中提取的上下文信息實現準確的溫度估計。
將視覺數據與自然語言查詢相結合,可實現更直觀的交互,通過根據環(huán)境條件提供即時反饋來增強用戶體驗。這種能力對于開發(fā)能夠適應不同場景并向用戶實時傳遞可靠信息的響應式系統至關重要。在此背景下使用VLM體現了其在不同領域實際應用中的多功能性和潛力。

同時,揚聲器用來通過振動提供物理交互,而用戶可以通過將手掌放在揚聲器上來感受這些振動。所再現的聲音經過精心挑選,以高度模擬真實的觸覺感受。需要注意的是,人類主要在1至1000赫茲頻率范圍內的聲音才能物理感知到振動,這對音頻選擇構成了限制。以這種方式集成揚聲器增強了感官體驗,使用戶能夠有效地連接聽覺和觸覺反饋。通過確保音頻輸出與觸覺反饋一致,系統創(chuàng)造了更具吸引力和更直觀的用戶體驗。
對于溫度反饋,使用了帕爾貼模塊(TEC1-03108,20×20mm)。這種熱電裝置的工作原理是當電流通過時產生溫差,使一側變熱而另一側冷卻。帕爾貼模塊對于需要精確溫度控制的應用特別有效,因為它能快速響應操作條件的變化。
相關論文:HapticVLM: VLM-Driven Texture Recognition Aimed at Intelligent Haptic Interaction
https://arxiv.org/pdf/2505.02569
總的來說,團隊提出的HapticVLM是一種新穎的系統,它利用視覺語言模型和深度卷積網絡來生成實時、多模態(tài)的觸覺反饋。系統架構包含兩個主要模塊:材料識別和溫度估計。材料識別模塊采用基于ConvNeXt的編碼器從材料圖像生成嵌入表示,通過余弦相似度度量實現魯棒的識別。同時,溫度估計模塊利用Qwen2-VL-2B-Instruct模型從視覺線索推斷環(huán)境溫度,然后通過帕爾貼模塊呈現。與觸覺振動同步的聽覺線索進一步增強了系統提供的多感官體驗。
實驗評估在兩個領域都展示了良好的結果。觸覺模式識別研究實現了平均84.7%的準確率,其中如木材雕刻加熱(WC-h)等特定模式達到了100%的識別率。在溫度估計任務中,視覺語言模型在15個案例中有13個正確推斷出溫度范圍,對應86.7%的準確率。所述結果凸顯了該系統在基于視覺和聽覺輸入動態(tài)合成逼真觸覺反饋方面的潛力。
盡管如此,當前的研究存在一些局限性。觸覺模式識別實驗僅使用了五種顯著的振動觸覺模式,可能無法完全捕獲現實場景中遇到的多樣性。另外,參與者數量相對較少,限制了研究結果的普適性。在未來的工作中,團隊計劃通過納入更多性質相似的觸覺模式來擴展實驗設計,以更好地理解用戶感知和系統性能的細微差別。同時,它們打算增加參與者數量以獲得更具統計穩(wěn)健性的見解。進一步的研究將探索整合額外的感官模態(tài)(如力反饋),并通過高級模型訓練及更大、更多樣化的數據集來改進基于VLM的溫度估計,從而增強觸覺反饋系統在虛擬現實等應用中的真實感和適應性。
總體而言,HapticVLM代表了向智能、情境感知觸覺交互邁出的重要一步,彌合了視覺感知與觸覺感受之間的差距,并為未來更沉浸、更有效的多感官系統奠定了基礎。

