如何在小型化設備實現

Vision Pro QQ群交流:653565822

中國AI網 2025年06月19日)蘋果visionOS 26的Persona實現了巨大的視覺進步。在親眼目睹了新系統之后,你很難不會留下深刻的印象。但一個主要的問題依然存在:如何將這種保真度帶到小型化設備。

就如同全身動捕一樣,頭顯設備的攝像頭位置(視場覆蓋)帶來了物理方面的限制,而且隨著形狀參數的不斷小型化,問題將變得越發困難。

蘋果visionOS 26大幅提升Persona虛擬化身視覺保真度  第1張

visionOS 26中的Persona大大提高了標準

visionOS 2現有的Persona系統已經是市場最逼真的實時虛擬化身系統。但蘋果依然在不斷提高標準。事實上,團隊對visionOS 26的結果非常滿意,并將刪除“測試版”標簽。

如上面的視頻所示,Persona的視覺保真度已經有了長足的提升,在親眼目睹了新系統之后,你很難不會留下深刻的印象。

注意,對于嘴巴模糊的情況,這是因為在演示測試時把手放在嘴巴前面,遮擋了頭顯朝下攝像頭的視場。另外,如果你看到視頻的動作“不自然”,這并不是故障,而是故意通過奇怪的姿勢來測試系統。

與之前的版本相比,盡管使用了相同的程序,相同的攝像頭,并且依然是在設備端處理所有內容,但結果明顯有所改善。皮膚和毛發看起來更加細致,而尤其令人印象深刻的是,它可以捕獲到胡茬。

但或許更為重要的是,蘋果的Persona系統以令人印象深刻的細節捕獲了面部的細微變化。你可以看到視頻以不尋常和不對稱的方式活動臉頰,但結果看起來依然是細致入微。目前尚不清楚新版本的Personas是否升級了動作映射,或者只是因為底層掃描現在更詳細,所以看起來更逼真。

蘋果同時證實,相關改進將同時應用到Eyesight顯示器。不過,由于前置顯示器的亮度和分辨率在很大程度上是限制因素,但屆時的Persona應該看起來更詳細、更逼真。

總的來說,“幽靈”的感覺大大降低。然而,手的效果看起來依然幽靈感十足(或許比原來更可怕,因為現在手的模糊和臉的堅實之間形成了更大的對比)。

如何在到更小的頭顯中實現?

Personas的視覺質量實現了明顯的飛躍,但一個關鍵的問題是:隨著未來設備的小型化,蘋果又將如何保持這種質量標準?

這不僅僅是因為一個更緊湊的頭顯需要更節能,以便在更小的封裝中完成同樣數量的計算。更小的頭顯同時意味著更少的攝像頭空間。

首先,令Personas成為可能的關鍵是,頭顯攝像頭可以對準用戶的嘴、臉和眼。這是為了準確將面部運動映射到虛擬化身的重要原始“ground truth”視圖。

如果你有一張正面的完整照片,這并不難。但隨著視角變得越來越極端,這個任務將變得越來越具有挑戰性。這就是為什么早期的面部追蹤技術通常會在用戶面前放置一個攝像頭(這樣就可以獲得清晰、不失真的視圖)。

蘋果visionOS 26大幅提升Persona虛擬化身視覺保真度  第2張

早期的Oculus面部追蹤原型機,大約在2015年

即便是現代的面部追蹤頭戴設備,為了更清晰地觀察人臉,它們都需要把攝像頭掛在離臉部相當遠的位置。

蘋果visionOS 26大幅提升Persona虛擬化身視覺保真度  第3張

VIVE XR Elite

如果你要實現一個更小的頭顯,攝像頭最終會移動到更靠近臉部的地方。這意味著來自攝像頭的“ground truth”數據是來自一個相當極端的角度。角度越極端,就越難映射運動。

當然,廠商正在活用各種手段。對于像Quest Pro和Vision Pro這樣的頭顯,解決這個角度問題的一個選擇是訓練算法,同時提供用戶面部的清晰視圖和面部的極端角度視圖。這將允許算法更好地預測清晰視圖如何映射到極端角度視圖。

蘋果visionOS 26大幅提升Persona虛擬化身視覺保真度  第4張

以Meta Reality Labs的研究為例,團隊設置有額外的攝像頭來捕獲面部的多個視圖。通過角度相對照的訓練,系統甚至可以從極端角度準確預測面部的運動。

蘋果visionOS 26大幅提升Persona虛擬化身視覺保真度  第5張

這種方法適用于像Quest Pro和Vision Pro這樣的頭顯,因為它們依然足夠突出,允許朝下攝像頭可以獲得足夠的視圖,并通過額外的訓練以完成這項工作。

但頭顯的未來發展方向是護目鏡大小,甚至是眼鏡大小。我們已經可以在PC VR頭顯(如Bigscreen Beyond)中看到這一趨勢。

蘋果visionOS 26大幅提升Persona虛擬化身視覺保真度  第6張

很明顯,即便在頭顯的最遠邊緣安裝一個攝像頭,你都無法為嘴巴提供特別清晰的視場。當設備變得更小的時候,視場就會完全遮擋。

盡管眼動追蹤攝像頭幾乎總是有一個足夠好的角度來檢測用戶的眼球運動,但人們最終會希望在XR中使用逼真的化身進行遠程交流。要做到這一點,你就需要全面的面部追蹤,而不僅僅是眼動追蹤。

一個潛在的解決方案

克服這一挑戰的其中一個潛在選擇可能不是“看”,而是“感知”用戶的人臉。

例如,有一家名為MindMaze的面部追蹤廠商提供了一種無攝像頭的解決方案,只是在貼臉面板安裝一組電極來測量面部肌肉活動。

蘋果visionOS 26大幅提升Persona虛擬化身視覺保真度  第7張

早期的原型使用了8個電極,所以產生了8個數據流,與面部的運動相對應。即便沒有個人校準,系統都能準確匹配一系列面部動作。

盡管它的精度不如Apple Vision Pro,但結合過去八年機器學習的進步,以及潛在地使用更多電極和個人校準,這個解決方案未來有望成為一種可行的方法,可以在沒有攝像頭直接視線的情況下進行面部追蹤。

當然,即便有了基于電極的先進系統,要實現真實的口腔運動依然是一個挑戰。對于這方面,基于音頻輸入(并使用個人校準)的對口型預測可以進一步提高準確性。

當然,這種方法只適用于“護目鏡”時代,而隨著我們接近全功能的“眼鏡”時,我們將需要另一種精確的面部追蹤解決方案。