DynamicAvatars
(中國AI網 2025年05月12日)動態Avatar的生成和編輯是虛擬現實等領域中的關鍵任務。然而,現有的方法經常遭受面部扭曲,頭部運動不準確和有限的細粒度編輯能力的影響。為了解決所述挑戰,西安交通大學團隊提出了DynamicAvatars。
這個動態模型可以從視頻剪輯和與面部位置和表情相關的參數中生成逼真的移動3D Avatar。所述方法通過一種基于提示的編輯模型實現精確的編輯,將用戶提供的提示與來自大型語言模型的指導參數集成在一起。
為了實現這一目標,研究人員提出了一個基于高斯飛濺的雙追蹤框架,并引入了一個快速預處理模塊來提高編輯穩定性。通過結合專門的GAN算法并將其連接到我們的控制模塊,可以從大型語言模型生成精確的指導參數。另外,他們開發了一種動態編輯策略,選擇性地利用特定的訓練數據集來提高效率。

由于計算機視覺在AR/VR等領域中的重要性,創建和編輯Avatar的已成為一個重要研究方向。高效地生產和靈活地編輯詳細的人體模型對于相關應用至關重要。傳統的方法利用顯式3D表示,如點云和網格,但往往難以準確地捕捉精細的幾何細節。
人臉固有的復雜性,其復雜的紋理、不可預測的姿勢和動態的表情,進一步復雜化了識別和建模潛在模式的任務。隱式3D表示方法解決了許多這些挑戰,提供了重建逼真的人類化身的能力。
通過引入新穎的渲染管道和基于神經網絡的色彩存儲技術,神經輻射場NeRF取得了顯著的成功。它們能夠生成高度復雜的場景,并顯著降低了時空計算成本。另外,相關方法在重建動態場景和渲染新穎視圖方面同樣取得了令人印象深刻的成果。
然而,由于編碼技術的限制和對先驗信息的利用不足,它們往往缺乏編輯或控制面部重建的能力。為了推進這一領域,研究人員越來越多地轉向3DGS。所述方法實時性好,結構簡單,便于編輯。
盡管有進步,目前的模型在實現精確和靈活的編輯方面依然面臨著重大挑戰。一個主要的限制是編輯精細的面部特征和裝飾。在解釋具有精確位置細節或高度詳細描述的指令時,現有的文本引導圖像編輯模型往往表現出較低的理解能力。
另外,在保持實時性能的同時,在動態場景中進行編輯依然是一個持久的障礙。西安交通大學團隊的模型可以重建動態數字Avatar,并支持基于文本的重建模型編輯,如圖1所示。
他們通過限制高斯條紋和網格的相對位置,同時對條紋應用語義掩碼實現了成功的重建。在編輯階段,使用專門設計的策略確定所有相關的高斯分布對目標編輯區域的貢獻。然后使用基于LLM的編輯過程對飛濺進行細化,以實現精確的修改。管道如圖2所示。方法分為兩個階段:使動態3D場景的建模和編輯使用高斯飛濺。

為了實現對頭部頭像的表情和紋理的靈活編輯,必須使用一種既能重建準確的頭部模型又能方便編輯的技術。

如圖3所示,團隊引入了一種不同于高斯Avatar的網格高斯綁定方法。其中,為過程的這個階段引入了兩種高斯追蹤模式。輸入視頻用光度頭部追蹤器進行處理,以擬合FLAME參數。每幀包括多視圖觀測,時間步長參數和已知的camera參數。
最初,追蹤每個三角形的高斯飛濺,以確保具有顯著變化的區域可以高精度地建模。接下來,應用一個獨立的面部成分標識符來生成語義掩碼。這允許在渲染成圖像時為每個高斯飛濺分配語義標簽,確保在整個動態場景中始終追蹤和操作相同的飛濺,在編輯過程中保持時間一致性。同時,將渲染結果與真實圖像進行對比,對Avatar進行訓練。
在下一階段,解耦高斯條紋和FLAME網格之間的關系,允許添加和修改附件,如戒指和帽子。為了提高渲染質量,應用自適應密度控制操作來調整高斯條紋的密度,根據需要選擇性地致密化和修剪它們。
通過使用在整個時間線生成選定區域的映射網絡,可以在整個動態場景中追蹤對目標區域有貢獻的高斯飛濺接下來,編輯所選集中的每個圖像以生成編輯后的圖像集。最后,應用一個具有條件對抗損失的學習過程,這有助于調節高斯分布并保持時間一致性。

上述方法允許編輯整個動態模型,任意有效地合并所需的更改。
另外,在面對方向、相對位置等描述信息等極其詳細的提示時,以往基于擴散模型的3D場景編輯研究難以保持編輯的穩定性,理解能力相對較低。所以團隊提出了利用LLM模型輔助圖像精細編輯的可行方向。
為了提高結果的生成質量,他們專注于根據精確的詳細提示,解決編輯和添加附件相關的錯位和誤解問題。研究人員提出了一個類似于SLD的框架,以提供一種實用的精細編輯方法。
相關論文:DynamicAvatars: Accurate Dynamic Facial Avatars Reconstruction and Precise Editing with Diffusion Models
總的來說,DynamicAvatars增強了編輯的控制和靈活性。高斯的雙重追蹤可以提高重建和編輯質量,而快速預處理架構增強了擴散模型生成準確編輯圖像的能力。另外,GAN方法的結合有助于減少顏色差異,使編輯更自然,特別是在面部區域。同時,動態高斯編輯功能允許更有效和直觀的動態場景編輯。

