Hallo2是什么

Hallo2是由復旦大學、百度公司和南京大學共同推出的音頻驅動肖像圖像動畫生成模型。能將單張參考圖片和持續幾分鐘的音頻輸入結合起來,基于可選的文本提示調節肖像表情,生成與音頻同步的高分辨率4K視頻。Hallo2基于先進的數據增強技術,如補丁下降和高斯噪聲,增強視頻的長期視覺一致性和時間連貫性。Hallo2實現潛在代碼的矢量量化和時間對齊技術,生成4K分辨率的視頻,引入語義文本標簽作為條件輸入,提高動畫的可控性和多樣性。Hallo2在多個公開數據集上進行廣泛的實驗,展示在生成長時間、高分辨率、豐富且可控內容方面的能力。

Hallo2  復旦、百度和南京大學共同推出的音頻驅動肖像圖像動畫生成模型 第1張Hallo2的主要功能長時視頻生成:能處理長達一小時的視頻生成,解決外觀漂移和時間偽影的問題。高分辨率輸出:實現4K分辨率的肖像視頻生成,提供清晰的視覺細節。音頻驅動動畫:基于音頻輸入驅動肖像圖像動畫,實現口型和表情的同步。文本提示調節:引入文本提示調節和細化肖像的表情,增加動畫的多樣性和表現力。數據增強技術:基于補丁下降和高斯噪聲增強技術,提高視頻的長期視覺一致性和時間連貫性。Hallo2的技術原理補丁下降技術(Patch-Drop Augmentation):基于在條件幀中隨機丟棄部分圖像塊(補?。瑴p少前一幀對后續幀外觀的影響,保持長時間視頻生成中的視覺一致性。高斯噪聲增強:在補丁下降的基礎上加入高斯噪聲,進一步提高模型對參考圖像外觀的依賴,保留運動信息,減少累積的偽影和失真。向量量化生成對抗網絡(VQGAN):基于向量量化潛在代碼和應用時間對齊技術,Hallo2能在時間維度上維持連貫性,生成4K分辨率的高質量視頻。語義文本標簽:Hallo2引入可調整的語義文本標簽作為條件輸入,支持模型根據文本提示生成特定的表情和動作,提高生成內容的可控性。跨注意力機制(Cross-Attention Mechanism):模型能在去噪過程中有效地整合運動條件,如音頻特征和文本嵌入,生成與條件輸入相一致的圖像。Hallo2的項目地址項目官網:fudan-generative-vision.github.io/hallo2GitHub倉庫:https://github.com/fudan-generative-vision/hallo2HuggingFace模型庫:https://huggingface.co/fudan-generative-ai/hallo2arXiv技術論文:https://arxiv.org/pdf/2410.07718v1Hallo2的應用場景電影和視頻制作:在電影制作中,Hallo2生成或增強角色的面部表情和口型,用在需要大量虛擬角色或特效的科幻和動畫電影中。虛擬助手和數字人:在客服、教育、娛樂等領域,Hallo2能創建逼真的虛擬助手或數字人,提供更加自然和吸引人的交互體驗。游戲開發:游戲開發者基于Hallo2生成具有高度真實感的角色動畫,提高游戲的沉浸感和玩家的游戲體驗。社交媒體和內容創作:內容創作者用Hallo2創建動態肖像視頻,用在社交媒體平臺,增加內容的吸引力和互動性。新聞和廣播:Hallo2能生成新聞主播的動畫形象,在需要多語言播報的情況下,快速生成不同語言的口型和表情。