查看引用/信息源請點擊:中國AI網(wǎng)

當前階段的真實Avatar雖然能夠增強身份認同感與初期存在感,但其有限的非語言表達能力容易導致用戶期望與現(xiàn)實之間的落差。相比之下,卡通Avatar雖然初印象不如真實Avatar強烈,但隨時間推移更易被接受,且在情緒傳達上的誤差更小。

中國AI網(wǎng) 2025年10月09日)由微軟研究院、奧格斯堡大學和倫敦大學金史密斯學院組成的團隊日前發(fā)布了一項研究成果,他們通過為期2-3周的實地實驗揭示了不同Avatar渲染風格在溝通效能、任務滿意度、存在感和情緒感知方面存在顯著差異,而這可以為未來虛擬協(xié)作系統(tǒng)的設計提供重要依據(jù)。

微軟研究院團隊研究不同Avatar渲染風格對虛擬協(xié)作的影響  第1張

研究團隊設計了一項具有高生態(tài)效度的縱向實驗,招募了6組共14名來自同一科技公司的員工。其中,參與者在日常工作中彼此熟悉且定期舉行會議。實驗使用HoloLens 2設備,每位參與者配備個性化的全身Avatar,其面部采用兩種不同的渲染風格:真實面部基于參與者肩部以上照片通過Avatar SDK v2.0.5生成,追求高度逼真效果;卡通面部則使用同一照片通過Avatar SDK v1.2.4生成,采用風格化渲染技術。

在技術實現(xiàn)方面,所有Avatar共享相同的骨骼結構和命名約定,并通過逆向動力學實時驅動,能夠準確反映用戶的頭部姿態(tài)、手部動作和位置移動。Avatar系統(tǒng)配備了基于語音振幅的唇部同步動畫和周期性眨眼功能,但值得注意的是,由于時間限制,系統(tǒng)未實現(xiàn)精細的面部表情追蹤、視線追蹤或坐姿動畫,這意味著參與者在整個會議過程中需保持站立狀態(tài)。

研究采用組內(nèi)交叉設計,半數(shù)小組先使用真實Avatar后切換為卡通風格(RC條件),另一半采用相反順序(CR條件)。在54場會議中,研究人員收集了124份詳細的問卷數(shù)據(jù),涵蓋了功能溝通價值、任務滿意度、存在感、自我報告情緒和情緒感知準確性等多個維度。

在溝通功能方面,研究顯示參與者普遍認為真實Avatar的非語言行為更加適宜于工作場景(p=0.019),且更有助于理解同事的意圖(p=0.036)。然而,這種優(yōu)勢伴隨著更高的期望值,當真實Avatar未能滿足這些期望時,參與者表現(xiàn)出更大的失望感。一位參與者在反饋中寫道:“整體上我對Avatar與真人的相似度印象深刻”,這是在首次使用真實Avatar后的評價;而到了最后一場使用真實Avatar的會議,同一位參與者則評論道:“語音部分還可以,但Avatar無法匹配我同事的表情。能夠與他們面對面工作時,我可以輕易察覺問題所在。”

在情緒感知方面,研究發(fā)現(xiàn)了令人驚訝的結果:盡管真實Avatar在溝通功能上獲得更高評價,但使用卡通Avatar時,參與者對同事情緒的感知誤差顯著更低(p=0.036)。這種差異在負面情緒(如“惱怒”和“壓力”)的感知上尤為明顯。在RC組中,參與者對“惱怒”和“壓力”情緒的感知誤差隨時間顯著上升(p=0.022;p=0.029)。進一步分析顯示,當參與者自我報告高度“惱怒”時,同事對其情緒的感知誤差顯著增加,這一現(xiàn)象在卡通和真實Avatar條件下均存在,但在真實Avatar條件下更為突出。

關于線索利用方式,研究發(fā)現(xiàn)參與者普遍將“措辭”、“語音語調(diào)”和“動作/手勢”評為最有用的情緒判斷線索。有趣的是,在RC組中,“視線”被認為比“面部表情”更有用;而在CR組中,這兩者均被評為最不重要的線索。這種差異可能與參與者對不同Avatar風格的期望有關:真實Avatar激發(fā)了參與者對非語言線索(如視線)的更高期待,盡管技術上并未實現(xiàn)真正的視線追蹤。

研究的一個關鍵發(fā)現(xiàn)是時間因素對Avatar接受度的顯著影響。使用卡通Avatar的參與者隨時間推移表現(xiàn)出更好的同事識別能力(p=0.04),且對Avatar外觀的關注度逐漸下降(p=0.01)。在CR組中,參與者在第一周使用卡通Avatar后,舒適度顯著提升(p=0.05),且Avatar外觀對其體驗的影響逐漸減弱。

相比之下,真實Avatar的使用體驗呈現(xiàn)出不同的時間軌跡。在RC組中,參與者在第一周使用真實Avatar時,對樂觀和惱怒情緒的感知誤差隨時間增加(p=0.05;p=0.02),而在第二周切換到卡通Avatar后,對惱怒和專注情緒的感知誤差則隨時間減少(p=0.01;p<0.001)。這表明使用順序對Avatar效果的調(diào)節(jié)作用不可忽視。

研究團隊指出,當前階段的真實Avatar雖然能夠增強身份認同感與初期存在感,但其有限的非語言表達能力容易導致用戶期望與現(xiàn)實之間的落差。相比之下,卡通Avatar雖然初印象不如真實Avatar強烈,但隨時間推移更易被接受,且在情緒傳達上的誤差更小。

研究強調(diào)了語音質(zhì)量在虛擬會議中的核心地位。在視覺渲染技術尚未完善的當下,優(yōu)化空間音頻與語音清晰度可能比追求極致的視覺真實感更具實際價值。另外,Avatar設計應更加注重其在具體使用場景中的功能價值,而非單純追求外觀的逼真度。

相關論文:Avatars in mixed-reality meetings: A longitudinal field study of realistic versus cartoon facial likeness effects on communication, task satisfaction, presence, and emotional perception

https://www.microsoft.com/en-us/research/wp-content/uploads/2025/10/2025-IJHCS-RealVsCartoonAvatarFacesInMixedReality-Longitudinal.pdf

當然,研究團隊指出了研究的若干局限性,包括樣本量相對較小,參與者均來自科技公司可能導致的技術接受度偏差,以及Avatar系統(tǒng)中缺乏精細的面部表情與視線追蹤功能。展望未來,研究將在更大樣本、更復雜的交互場景中進一步驗證相關發(fā)現(xiàn),并探索更先進的表情與視線追蹤技術對虛擬協(xié)作體驗的影響。

總的來說,這項開創(chuàng)性的工作為混合現(xiàn)實協(xié)作系統(tǒng)的設計提供了實證基礎,指明了在Avatar開發(fā)中需要平衡視覺真實性與功能實用性的重要方向,同時為未來企業(yè)在部署虛擬會議系統(tǒng)時的技術選型提供了科學依據(jù)。