DreamVideo-2是什么

DreamVideo-2是創新的零樣本視頻定制框架,復旦大學和阿里巴巴集團等機構聯合推出。DreamVideo-2能根據單一圖像和界定框序列生成具有特定主題和精確運動軌跡的視頻,無需在測試時進行微調??蚣苡脜⒖甲⒁饬C制學習主題外觀,基于從界定框導出的二值掩碼控制運動軌跡,實現精確的運動控制。DreamVideo-2引入混合掩碼參考注意力和重加權擴散損失,增強主題表征、平衡主題學習與運動控制。研究團隊用WebVid-10M數據集和內部數據支持零樣本視頻定制任務。DreamVideo-2在主題定制和運動控制方面均優于現有的先進方法,展現在視頻定制領域的潛力和實用性。

DreamVideo-2  復旦和阿里聯合多機構推出的零樣本視頻定制生成框架 第1張DreamVideo-2的主要功能零樣本定制:無需在測試時進行微調,能直接根據用戶提供的單一圖像和界定框序列生成具有特定主題和精確運動軌跡的視頻。主題學習:基于參考注意力機制,用模型的固有能力學習、生成特定主題的外觀。精確運動控制:用從界定框導出的二值掩碼控制視頻中主題的運動軌跡,實現精確的運動控制。混合掩碼參考注意力:基于混合潛在掩碼建模方案增強目標位置的主題表征,提升主題的準確性。重加權擴散損失:區分界定框內外區域的貢獻,確保主題學習和運動控制之間的平衡。DreamVideo-2的技術原理參考注意力機制:基于視頻擴散模型的多尺度特征提取能力,將用戶提供的單一主題圖像作為單幀視頻輸入模型,獲取主題注意力特征?;跉埐罱徊孀⒁饬⒅黝}特征注入到視頻特征中,增強模型對特定主題的學習能力。掩碼引導的運動模塊:將用戶定義的界定框序列轉換為二值掩碼序列,用在指示視頻中主題的運動軌跡。設計包含時空編碼器和空間ControlNet的掩碼引導運動模塊,從掩碼序列中提取運動信息實現精確控制。混合掩碼參考注意力:在參考注意力中引入混合潛在掩碼建模,基于調整掩碼中背景的權重,增強目標位置的主題表征。重加權擴散損失:設計新的損失函數,基于調整界定框內外區域的損失貢獻權重,平衡主題學習和運動控制。訓練與推理:在訓練階段,凍結原始3D UNet參數,聯合訓練新添加的組件,如混合掩碼參考注意力和掩碼引導的運動模塊。在推理階段,用戶提供主題圖像和界定框序列,能生成定制視頻,無需額外的微調或注意力圖修改。數據集構建:構建新的單主題視頻數據集,包含視頻掩碼和邊界框,用Grounding DINO、SAM和DEVA模型生成注釋,支持零樣本視頻定制任務。DreamVideo-2的項目地址項目官網:dreamvideo2.github.ioarXiv技術論文:https://arxiv.org/pdf/2410.13830DreamVideo-2的應用場景娛樂與社交媒體:用戶根據個人喜好,快速生成包含特定人物或物體的視頻內容,用在社交媒體分享或個人娛樂。電影與視頻制作:電影制作人用DreamVideo-2預覽特效或場景,或生成特定的動作序列,減少實際拍攝的成本和時間。廣告與營銷:基于定制視頻內容,企業能創建更具吸引力的廣告,用特定產品或品牌為主題,提高廣告的個性化和互動性。教育與培訓:教育機構用DreamVideo-2生成教學視頻,模擬特定的實驗過程或歷史事件,增強學習體驗。新聞與報道:新聞機構快速生成新聞故事的視覺內容,尤其是對于難以現場拍攝的事件。