為了引發自然的交流行為,對話者的渲染必須包含足夠真實的頭部運動
(中國AI網 2025年08月18日)虛擬現實中的交互式通信可用于實驗范式,以提高助聽設備評估的生態效度。這要求虛擬環境能夠引發聽者自然的交流行為。在一項研究中,德國奧爾登堡大學團隊評估了虛擬化身頭部運動對參與者交流行為與體驗的影響。
他們在測試參與者和兩名配合者之間進行了三方對話。為便于操控頭部運動,對話通過一個低延遲傳輸音頻、頭部運動數據和視頻的遠程呈現系統進行。配合者由具有不同動畫水平的虛擬化身代表:靜態頭部、基于語音起始水平的自動頭部運動動畫,以及基于傳輸的對話者頭部運動進行的動畫化頭部運動。另外,對話者頭部的視頻被嵌入到視覺場景中。
結果顯示,動畫水平對參與者通過物理傳感器記錄的言語和頭部運動行為,以及主觀臨場感和對話成功率均有顯著影響。影響最大的是說話時的頭部朝向范圍以及化身的感知真實感。參與者報告稱,當化身顯示出從對話者傳輸而來的頭部運動時,他們感覺對方說話的方式比化身頭部靜態時更有幫助。
因此,德國奧爾登堡大學團隊得出結論:為了引發自然的交流行為,對話者的渲染必須包含足夠真實的頭部運動。

日常生活中的對話(可能伴隨周圍背景噪聲)十分頻繁。它們是社交互動的重要組成部分,而頻繁的誤解會對人的自信心、社會參與度以及整個生命周期的整體幸福感產生負面影響。對于聽力受損的聽者來說,群體對話尤其具有挑戰性,尤其是在存在背景噪聲的情況下。
助聽設備旨在提高言語清晰度并降低聆聽努力度,但據大規模調查顯示,約25%的用戶在困難的聆聽環境中對其設備滿意度較低。特別是對于聽力損失程度較高的患者,當前的助聽設備提供的支持不足。改進設備性能并非易事,因為它需要在多樣化和動態的聲音場景中識別并衰減無關信號。最近利用用戶注視和頭部運動行為來區分相關與跨聲源的技術發展可能有助于完成此任務。
為了評估此類基于行為的信號處理策略,需要合適的方法。例如,與孤立聆聽相比,交互式對話被發現能引發聽者不同的頭部運動行為。因此,需要能引發自然行為的系統性測試來評估助聽設備的性能。特別是,有證據表明,當用于評估更復雜的算法時,廣泛使用的評估方法和指標(如言語接受閾)對設備在現實生活中的性能預測能力較差,而這更強調了此必要性。
部分原因可能是這些傳統方法中的頭部運動行為并未反映現實生活行為。虛擬視聽環境是呈現日常生活場景的多功能工具。與現場測量相比,其呈現的刺激可以精確控制,多種場景可以在同一地點呈現,目標信號和噪聲信號可以直接獲取。
最近,虛擬對話中非語言行為的重要性得到強調,特別是頭部運動和眼神交流對有效溝通和舒適度的重要性。關于自身運動,有研究表明聽者在跟隨對話時的頭部運動行為取決于虛擬化身的唇部運動水平和頭部朝向動畫水平。研究同時發現,操控主動對話中對話者的頭部運動會改變接收者的運動。較早的一項研究得出結論,使用捕獲的行為數據將實現更高的化身真實感。因此,在評估聽者行為時,在虛擬環境中準確呈現潛在對話者的非語言線索(如頭部朝向、注視行為和點頭)至關重要。
德國奧爾登堡大學團隊的研究旨在通過調查化身頭部運動對聽者行為和體驗的影響。
研究的問題是:將頭部運動傳輸給化身是否會影響虛擬環境場景中的行為和體驗到的參與度? 所提出方法是觀察參與者在遠程呈現中進行的真實交互式三方對話,并系統性地修改代表對話者的化身的頭部運動動畫水平。化身使用虛擬動畫角色顯示。通過改變背景噪聲水平來控制難度。然后,使用客觀行為數據和主觀體驗評分評估頭部運動動畫水平的影響。
測量環境代表了一個典型的酒吧對話場景。團隊預計對話者的頭部運動會對交流行為和對話成功產生影響,因為它們包含了非語言交流線索。言語行為是可以反映對話中努力度變化的一個方面。在噪聲中進行口語互動時,一個典型的補償策略是言語水平和頻譜內容的改變,即隆巴德效應。作為隆巴德效應的一個簡單度量,可以進行言語水平分析。另外,研究發現,在自由對話中,高背景噪聲下話語持續時間更短,這可能是為了簡化信息。
相比之下,在雙人拼圖任務中發現話語持續時間增加 。另外,連續說話者之間切換的時機也可能表明對話中互動的難易程度。言語貢獻的協調受損有時與反映所需的言語處理時間有關。然而,這些影響是多因素且模糊的。例如,有研究發現在更高的噪聲水平下,連續說話者之間的言語間隙更短,盡管人們預期噪聲的存在會因更高的言語識別努力度而導致言語間隙增加。
先前的研究使用了各種術語,如“說話者間停頓”和“說話者間重疊” 或“話語權轉移偏移”。在本研究中,團隊將兩位說話者之間的停頓稱為言語間隙 (speech gaps),說話者輪換時的重疊言語稱為言語重疊 (speech overlap)(參見圖 2)。接下來,背景噪聲的變化以及化身頭部運動預計會影響參與者的運動行為(位移和頭部朝向)。頭部運動行為的改變對于頭戴式助聽設備的潛在影響具有重要意義。
對于面對面的三方對話,有研究指出未發現噪聲水平對頭部朝向角度有影響,但與語音成形噪聲相比,在多人嘈雜聲中頭部朝向角度更大。其他研究人員發現噪聲水平對年輕聽力正常聽者有微小影響,但對老年聽力受損聽者沒有影響。然而,由于研究同時改變了對話的視覺方面,與對話者的角度距離可能會受到動畫條件的影響。另外,可以計算某條件下頭部朝向范圍作為頭部運動行為的度量。

為了收集參與者的主觀體驗評分,有數種可用的問卷。igroup臨場感問卷評估體驗到的臨場感,包括虛擬環境的空間臨場感、參與度和真實感等因子。這一問卷在先前的一項研究中有用于評估日常生活的非交互式虛擬場景。在評估交互式通信場景時,感知到的對話成功度是一個重要方面。
團隊的總體預期是,如果噪聲水平設置在顯著阻礙對話的聲壓級上,與安靜條件相比,背景噪聲會對選定的測量指標產生影響。不同頭部運動實現方式的影響預計較小,因為聽力正常的參與者群體可能較少依賴視覺線索(相比聽覺線索)。可能影響僅在噪聲中存在,因為此時聽覺互動受限,視覺交流可能更為相關。
在研究中,團隊發現將頭部運動傳輸給化身會影響參與者在虛擬現實中交互式三方對話中的行為。特別是,他們發現參與者的頭部運動和話語持續時間在變化的頭部運動動畫水平下發生了微小變化。另外,虛擬場景中的臨場感和對話成功率同樣受到影響。傳輸的頭部運動的效果從未顯著優于自動化的頭部運動,但作為趨勢可見其優勢。
相關論文:Effect of Avatar Head Movement on Communication Behaviour, Experience of Presence and Conversation Success in Triadic Conversations
https://arxiv.org/pdf/2504.20844
與靜態化身相比,使用視頻傳輸來代表遠程對話者時效果最大。因此可以得出結論:在虛擬現實交互式通信的背景下,對話者的呈現必須包含足夠量的頭部運動(如點頭或將頭部朝向活躍說話者),以引發對話者自然的對話行為。
結合參與者說話和聆聽時頭部運動行為不同的發現,這一方面對于評估基于行為的信號處理策略所需的受控自然聆聽場景至關重要。然而,僅傳輸頭部運動不足以提供充分的非語言交流行為,所以需要進一步研究對話者的面部表情、手勢和姿勢對交流行為的影響。

