大大減少了存儲開銷,僅為10MB

中國AI網 2025年05月09日)從任意視點繪制逼真的Avatar對于虛擬現實等各種應用至關重要。盡管基于神經輻射場NeRF的方法可以取得令人印象深刻的結果,但它們缺乏保真度和效率。另一方面,使用3DGS的方法提高了渲染質量和實時性能,但依然需要大量的存儲開銷。

在一項研究中,中國科學院,中國科學院大學和英特爾團隊介紹了一種名為GraphAvatar的方法,利用圖神經網絡GNN為Avatar生成3D高斯分布。具體來說,GraphAvatar訓練一個幾何GNN和一個外觀GNN來從追蹤網格中生成3D高斯屬性。

所述,這一方法可以存儲GNN模型而不是3D高斯模型,從而大大減少了存儲開銷,僅為10MB。

為了減少人臉追蹤誤差的影響,研究人員同時提出了一種新的圖形引導優化模塊來優化訓練過程中的人臉旨在參數。最后,他們引入了3D感知增強器進行后期處理,以提高渲染質量。團隊進行了全面的實驗來證明GraphAvatar在視覺保真度和存儲消耗方面超越現有方法的優勢。消融研究則揭示了渲染質量和模型大小之間的權衡。

GraphAvatar框架利用圖神經網絡GNN實現高保真Avatar渲染  第1張

從任何視點渲染逼真的Avatar對于虛擬現實和增強現實應用都必不可少。視覺保真度、渲染速度和存儲開銷等關鍵方面至關重要。隨著深度學習的發展,基于神經領域的方法因其在所述方面的優勢而成為主流。

開創性的神經領域工作神經輻射場NeRF及其變體在神經渲染和重建方面取得了令人印象深刻的成果。但它們缺乏保真度和效率。另一方面,使用3DGS的方法提高了渲染質量和實時性能,但依然需要大量的存儲開銷。

為了解決相關問題,中國科學院,中國科學院大學和英特爾團隊提出了一種名為GraphAvatar的新方法,利用圖神經網絡GNN為逼真的Avatar生成3D高斯函數。

GraphAvatar優化了一個幾何GNN和一個外觀GNN,使用追蹤網格作為輸入來生成3D高斯分布。3D高斯作為錨點,并輸入到一個與視圖相關的MLP中,以學習與不同視點相關的3D高斯偏移量。

預測的偏移量調整錨定的3D高斯,打破了被追蹤網格施加的限制,允許學習更好的細節。隨后,使用光柵化將調整后的3D高斯圖像渲染成逼真的Avatar。所以,這個方法存儲GNN模型而不是3D高斯模型,從而顯著降低了存儲開銷。

為了減少人臉追蹤誤差的影響,團隊同時引入了一個先進的圖導優化模塊來優化訓練過程中的人臉追蹤參數。最后,為了減少GNN引起的過度平滑,在后處理中加入了一個輕量級的3D感知增強器,利用渲染的深度圖來提高渲染質量。

直觀地說,目標是學習一個函數F(G(x)) = C,將可動畫的3D高斯圖像映射到柵格化的Avatar圖像中。然而,渲染高保真Avatar通常需要超過10,000個高斯參數。在致密化過程中,高斯函數的數量會隨著訓練的變化而波動,這導致在建模具有不同面部表情的不同Avatar時需要動態存儲。

為了減輕由FLAME參數引起的不準確性,團隊開發了一個圖導優化模塊(GGO),以在整個訓練過程中改進參數。受先前研究人員引入時間回歸器來校正系數并確保平滑的啟發,他們輸入歸一化時間t,并通過MLP對其進行處理以提取時間特征ft。

GraphAvatar框架利用圖神經網絡GNN實現高保真Avatar渲染  第2張

隨后,將來自兩個Graph Unet的瓶頸特征連接起來,表示為fg。在生成特征后,在ft和fg之間執行交叉注意機制(Attn),從而能夠預測追蹤參數的偏移量。

為了達到更高的渲染質量,研究人員設計了一個3D感知增強器,專門用于細節恢復。不是僅僅連接渲染貼圖作為Unet后處理器的輸入,他們單獨處理深度信號D。深度信號通過學習變換整合到Unet的每個塊中。這種方法允許基于深度信息進行更細致的調整,增強渲染圖像的細節。

相關論文:GraphAvatar: Compact Head Avatars with GNN-Generated 3D Gaussians

總的來說,GraphAvatar將追蹤網格作為輸入,并使用圖神經網絡生成3D高斯參數,最終渲染動態Avatar動畫。與直接存儲3D高斯數據相比,GraphAvatar采用了Graph Unets,顯著減少了存儲消耗。所述方法在圖像質量和存儲消耗方面都達到了最先進的性能,為先進的數字人類Avatar應用開辟了新的可能性。

代碼請訪問這個頁面。