可在大約40分鐘內僅使用手機錄制的視頻創建基于高斯飛濺的化身

中國AI網 2025年07月28日)逼真的化身對于虛擬現實和增強現實等沉浸式應用至關重要,可以在訓練模擬、遠程醫療和虛擬協作等領域實現逼真的交互。虛擬化身彌合了物理世界和數字世界之間的鴻溝,可通過逼真的人類表現改善用戶體驗。然而,現有的虛擬化身創建技術面臨著重大挑戰,包括成本高、創建時間長以及虛擬應用程序中的實用性有限。手動方法,如MetaHuman,則需要大量的時間和專業知識,而自動方法,如基于NeRF的管道,通常缺乏效率和細節的面部表情保真度,并且無法以足夠的速度呈現實時應用。

在一項研究中,通過納入一系列的尖端現代技術,美國范德比爾特大學引入了一個端到端的3DGS化身創建管道,并可在大約40分鐘內僅使用手機錄制的視頻創建基于高斯飛濺的化身。管道包含兩大創新:采用改進型高斯飛濺算法配合定制化預處理模塊,支持”非受控環境”的用戶單目視頻捕獲,并實現精細化面部表情重建并嵌入全骨骼綁定角色模型。

另外,團隊提供了一個Unity集成的高斯飛濺化身編輯器,為VR/AR應用程序開發提供了一個用戶友好的環境。實驗結果驗證了預處理管道在標準化3DGS訓練自定義數據方面的有效性,并展示了Unity中高斯化身的多功能性,突出了所提出方法的可擴展性和實用性。

牛津大學與蘇黎世聯邦理工聯合開發DNF-Avatar 實現67FPS實時角色重照明  第1張

我們生活在一個技術飛速發展的時代,人工智能、機器學習、以及虛擬現實和增強現實等沉浸式技術的突破性創新成為了這個時代的標志。VR和AR最初專注于娛樂,現在已將其影響力擴展到教育、醫療保健和工業等領域,改變了我們聯結、學習和協作的方式。

所述技術提供了身臨其境的交互式體驗,重新定義了人類的互動。然而,所述變革性應用的核心是這樣一個關鍵需求:虛擬空間中人類的自然和逼真表現。虛擬化身是實現VR和AR全部潛力的關鍵,它提供了一種促進逼真交互和創造引人入勝的虛擬環境的手段。

從訓練模擬到遠程醫療,逼真的化身對于提供有意義的實時體驗至關重要。然而,在人類化身中實現真實性——捕獲外表和行為——依然是一個重大挑戰。這強調了需要先進的方法來彌合物理世界和虛擬世界之間的差距,在虛擬環境中實現逼真和有影響力的交互。

另外,虛擬化身在增強交互式VR和AR體驗的沉浸感和共同呈現性方面發揮著至關重要的作用。沉浸感,即在虛擬環境中深度參與的感覺,以及共同臨場感,即與他人共享空間的感覺,可以通過逼真的虛擬化身得到加強,尤其是當虛擬化身能夠有效地傳達非語言線索,如面部表情、手勢和眼球運動時。

通過連接物理和數字領域,逼真的虛擬化身提升了虛擬體驗,培養了更強的情感聯系,增強了社交互動的真實感。例如,在遠程呈現系統中,高保真虛擬形象準確地捕獲和傳輸非語言交流線索,包括面部表情、肢體語言和眼神交流,以確保更有吸引力和更有效的人際互動。

角色的創建可以手動或自動進行,而每種方法都有其優點和局限性。對于手動,最先進的工具MetaHuman提供了基本的人體模型,但需要專業的3D美術來完善身體形狀,服裝和面部特征等細節。盡管模型非常適合3D環境開發,但這個過程既費力又耗時。生成的虛擬化身一開始往往不能讓參與者滿意,需要經過多輪調整和定制才能滿足他們的期望。

另外,自定義選項是有限的,令創建高度詳細或獨特的化身變得復雜。為了解決相關限制,研究人員越來越多地轉向使用視頻或圖像輸入來自動創建虛擬角色。近年來,基于NeRF的管道已經取得了重大進展,可以自動生成逼真的3D人體模型。2023年推出的3DGS標志著一個突破,與基于NeRF的方法相比,它在質量和培訓時間方面都有了實質性的改進。

盡管取得了進步,但在將基于3D圖像的虛擬化身應用于實際的VR和AR應用方面依然存在一定的挑戰。目前的方法通常嚴重依賴于公共數據集,特別是SMPL-X參數,如PeopleSnapshot和X-Human。盡管所述數據集旨在為研究目的提供高質量的視頻和圖像,但它們并不能反映真實世界視頻捕獲的條件,因為它們依賴于昂貴設備和勞動密集型處理的受控環境,在實際應用中不容易復制。數據集同時需要大量的預處理來為現實世界的應用程序定制化身,這限制了它們的可擴展性和可訪問性。另外,大多數系統依賴于復雜的實驗室設置,包括多個攝像頭來捕獲360度視圖,這增加了計算成本并要求高性能GPU。

同時,盡管身體關鍵點是主要焦點,但面部表情往往遭到忽視,這限制了這些虛擬形象在情感驅動應用中的多功能性。另外,基于3D圖像的虛擬化身并沒有完全集成到實時VR/AR平臺中。它們主要針對圖像渲染而不是交互式環境進行了優化。

為了所述這些挑戰,美國范德比爾特大學提出了一個端到端3D化身創建管道,利用單目視頻輸入,直接生成兼容Unity游戲引擎的可擴展高效逼真化身。管道包含兩大創新:采用改進型高斯飛濺算法配合定制化預處理模塊,支持”非受控環境”的用戶單目視頻捕獲,并實現精細化面部表情重建并嵌入全骨骼綁定角色模型。

另外,團隊提供了一個Unity集成的高斯飛濺化身編輯器,為VR/AR應用程序開發提供了一個用戶友好的環境。實驗結果驗證了預處理管道在標準化3DGS訓練自定義數據方面的有效性,并展示了Unity中高斯化身的多功能性,突出了所提出方法的可擴展性和實用性。

牛津大學與蘇黎世聯邦理工聯合開發DNF-Avatar 實現67FPS實時角色重照明  第2張

當然,盡管團隊提出的高斯飛濺模型訓練了3000次迭代,產生了質量相當好的結果,但需要進一步探索以確定平衡質量和效率所需的最佳splat數量。隨著訓練迭代的增加,需要添加更多的高斯函數來捕獲更精細的細節,而研究渲染質量和計算成本之間的權衡是必要的。

由于這項研究并不專注于優化掩碼生成,特定偽影可能會出現在個性化的化身中,特別是在使用自定義數據集時。偽影在頭發等復雜區域最為明顯,分割不準確會影響最終的視覺質量。目前,服裝訓練成身體表面不可分割的一部分,這意味著任何服裝的改變都需要錄制新的視頻并重新訓練虛擬化身。盡管這種方法產生了視覺上一致的結果,但它限制了用戶的靈活性。另外,目前的管道缺乏對現實布料動態的支持,因為服裝沒有表現出獨立的物理運動或變形來響應身體運動。

相關論文:GSAC: Leveraging Gaussian Splatting for Photorealistic Avatar Creation with Unity Integration

https://arxiv.org/pdf/2504.12999

總的來說,團隊提出了一個端到端管道,它可在大約40分鐘內僅使用手機錄制的視頻創建基于高斯飛濺的化身。所提出方法利用了多種尖端的機器學習模型,并引入了優化SMPL-X參數的新技術。與現有的方法相比,所得到的參數產生視覺上引人注目的結果,而且往往優于現有的方法。

系統不僅支持Unity的默認動畫系統,而且允許用戶輸入自定義的SMPL-X參數,實現基于真實人體運動的個性化或動捕動畫。這使得虛擬化身在VR/AR應用程序中很容易進行應用,只需要很少的額外設置。當然,盡管依然存在改進的空間,但這項研究為下一代沉浸式VR/AR體驗奠定了堅實的基礎,并證明了逼真的,可動畫的化身可以通過易于訪問的工具快速有效地生成。