PersonaTalk是什么

PersonaTalk是字節跳動推出的基于注意力機制的兩階段框架,用在實現高保真度和個性化的視覺配音。PersonaTalk能在合成與目標音頻精準唇形同步的視頻的同時,保留說話者的獨特說話風格和面部細節。第一階段涉及風格感知的音頻編碼和唇形同步幾何生成,第二階段用雙注意力面部渲染器渲染目標幾何圖形的紋理。PersonaTalk在視覺質量、唇形同步精度和個性保留方面展現出比現有技術更優的性能(包括Wav2Lip、VideoReTalking、DINet和IP_LAP),作為一個通用框架,能達到與特定人方法相媲美的效果。

PersonaTalk  字節跳動推出的實現高保真和個性化視覺配音框架 第1張PersonaTalk的主要功能唇形同步:確保視頻中人物的嘴型動作與輸入音頻精確匹配。個性保留:在視頻合成過程中,保留說話者的獨特風格和面部特征。風格感知:基于分析說話者的3D面部幾何信息,學習說話者說話風格,融入到音頻特征中。雙注意力面部渲染:用Lip-Attention和Face-Attention兩個并行的注意力機制,分別處理唇部和其他面部區域的紋理渲染,生成具有豐富細節的面部圖像。PersonaTalk的技術原理幾何構建風格感知音頻編碼:用HuBERT等預訓練模型將音頻信號轉換為豐富的上下文語音表示,基于交叉注意力層將說話風格注入音頻特征中。唇形同步幾何生成:用風格化的音頻特征驅動說話者的模板幾何形狀,基于多個交叉注意力和自注意力層生成與音頻同步的唇形幾何形狀。面部渲染幾何與紋理編碼:將參考視頻的幾何形狀和紋理編碼到潛在空間中,便于后續的處理。雙注意力紋理采樣:基于兩個并行的交叉注意力層(Lip-Attention和Face-Attention),分別從不同的參考幀中采樣唇部和面部的紋理。參考幀選擇策略:為唇部和面部紋理選擇不同的參考幀,增強紋理采樣的多樣性和全局一致性。紋理解碼:將采樣的紋理從潛在空間解碼回像素空間,保護面部幾何結構,生成最終的面部圖像。PersonaTalk的項目地址項目官網:grisoon.github.io/PersonaTalkarXiv技術論文:https://arxiv.org/pdf/2409.05379PersonaTalk的應用場景電影和視頻制作:在電影后期制作中,PersonaTalk為角色配音,特別是當原始錄音不滿意或需要更改語言時,生成與角色嘴型同步的配音視頻。視頻游戲:在游戲開發中,用在生成非玩家角色(NPC)的逼真對話,提供更加沉浸式的游戲體驗。虛擬助手和數字人:為虛擬助手或數字人提供更加自然和逼真的語音及面部表情同步,提升用戶交互體驗。語言學習應用:在語言學習軟件中,P生成教師或虛擬角色的唇形同步視頻,幫助學習者更好地學習和模仿發音。新聞和媒體廣播:用在將新聞主播的講話翻譯成不同語言,保持原有的面部表情和嘴型,提高多語言廣播的自然度和準確性。