MarDini是新型的視頻擴散模型,融合掩碼自回歸(MAR)和擴散模型(DM)的優勢,用在大規模視頻生成。模型能處理任意數量和位置的掩碼幀,支持視頻插值、圖像到視頻生成及視頻擴展等多種任務。MarDini將大部分計算資源分配給低分辨率的規劃模型,實現空間-時間注意力機制的大規模應用,提高視頻生成的效率和靈活性。MarDini能從無標簽數據中從頭開始訓練,無需依賴圖像生成的預訓練,展現出優異的可擴展性和效率。
MarDini的主要功能視頻插值:在兩個給定幀之間生成中間幀,讓視頻流暢過渡。圖像到視頻生成:從單張圖片出發,生成連續的視頻內容。視頻擴展:在現有視頻基礎上添加新的幀,擴展視頻長度。慢動作視頻生成:基于自回歸推斷,生成超出訓練階段定義的額外幀,創建慢動作效果的視頻。零樣本3D視圖合成:即便沒有3D數據訓練,也能生成具有3D一致性的新視角畫面。MarDini的技術原理掩碼自回歸(MAR)與擴散模型(DM)的結合:MarDini將MAR用在處理時間序列的長期依賴關系,DM專注于空間細節的生成。不對稱網絡設計:MAR在低分辨率下運行,擁有更多的參數,DM在高分辨率下運行,擁有較少的參數。讓模型在低分辨率階段能處理更多的計算任務,在高分辨率階段專注于細節生成。端到端訓練:基于掩碼幀級擴散損失,MarDini從無標簽視頻數據中進行端到端訓練。靈活的掩碼策略:MarDini根據不同的任務需求,改變掩碼幀的數量和位置,靈活地適應不同的視頻生成任務。漸進式訓練策略:模型逐步調整掩碼比例和訓練任務的難度,從視頻插值平滑過渡到完整的視頻生成。MarDini的項目地址項目官網:mardini-vidgen.github.ioarXiv技術論文:https://arxiv.org/pdf/2410.20280v1MarDini的應用場景娛樂與社交媒體:MarDini用在生成社交媒體上分享的短視頻內容,如自動生成的舞蹈視頻、特效視頻或者用戶自定義的故事短片。電影與視頻制作:在電影后期制作中,MarDini生成或增強特效場景,或用在創建電影預告片中的某些鏡頭。游戲開發:在游戲開發中,生成游戲內的動態背景視頻或者作為游戲角色動畫的原型設計工具。虛擬現實(VR)與增強現實(AR):MarDini用在生成VR或AR應用中的動態環境和場景,提升用戶沉浸感。廣告與營銷:MarDini用在創建吸引人的廣告視頻,基于動態內容吸引潛在客戶的注意力。 
