HiFiVFS(High Fidelity Video Face Swapping)是騰訊和VIVO公司推出的高保真視頻換臉框架,HiFiVFS基于Stable Video Diffusion(SVD)框架,用多幀輸入和時間注意力機制確保視頻生成的穩定性。框架在訓練階段引入細粒度屬性學習(FAL)和詳細身份學習(DIL),增強屬性控制和身份相似性。FAL基于身份去敏感化和對抗學習實現屬性解耦,DIL用更適合換臉的身份特征提升相似度。HiFiVFS在潛在空間進行訓練和測試,為展示效果,所有過程都在原始圖像空間中可視化。
HiFiVFS的主要功能高保真視頻換臉:將源圖像中的人臉身份特征替換到目標視頻中,同時保留目標視頻的屬性,如姿勢、表情、照明和背景。時序穩定性:在多幀視頻上應用時間注意力機制,確保視頻幀之間的連續性和穩定性,避免傳統方法中可能出現的時序抖動問題。細粒度屬性控制:基于細粒度屬性學習(FAL),提取和控制視頻中的細粒度屬性,如照明和化妝,這些在以往的換臉技術中往往難以保持。身份相似性增強:基于詳細身份學習(DIL),用更詳細的面部識別特征提高換臉后人臉與源圖像身份的相似度。HiFiVFS的技術原理基于SVD框架:建立在Stable Video Diffusion(SVD)框架之上,SVD框架專為高分辨率文本到視頻和圖像到視頻合成而設計。多幀輸入:與僅處理單幀圖像的方法不同,HiFiVFS處理多幀視頻輸入,有助于保持視頻的時序穩定性。時間注意力機制:基于時間注意力機制加強視頻幀之間的關聯性,進一步提升視頻穩定性。細粒度屬性學習(FAL):屬性解耦:基于身份去敏感化和對抗學習,FAL能提取與身份解耦的細粒度屬性特征。增強屬性控制:FAL基于對抗學習增強對屬性的控制,讓換臉后的視頻能更好地保留目標視頻的屬性。詳細身份學習(DIL):身份特征提取:DIL用面部識別模型的更深層次特征,獲取更詳細的面部身份信息。身份相似性提升:DIL基于將這些詳細的身份特征注入到換臉過程中,提高換臉結果與源身份的相似度。HiFiVFS的項目地址項目官網:cxcx1996.github.io/HiFiVFSarXiv技術論文:https://arxiv.org/pdf/2411.18293v1HiFiVFS的應用場景電影和視頻制作:在電影和視頻制作中,替換或改變演員的面部表情和身份,用在適應特定的劇情需要,或用于特效制作。游戲開發:在游戲開發中,用在創建逼真的角色面部動畫,提供更加豐富和真實的交互體驗。虛擬現實(VR)和增強現實(AR):在VR和AR應用中,用在生成或修改用戶虛擬形象的面部特征,提供個性化的沉浸式體驗。社交媒體:在社交媒體平臺上,用戶能進行娛樂性質的面部替換,如換臉濾鏡或表情變化,增加互動樂趣。廣告和營銷:廣告商將名人或模特的面部特征應用到廣告中,提高廣告的吸引力和個性化。 
