CAVIA是蘋果公司、得克薩斯大學奧斯汀分校、谷歌聯合推出的多視角視頻生成框架,能將單一輸入圖像轉換成多個時空一致的視頻序列。框架基于引入視角集成注意力模塊,增強視頻的視角一致性和時間連貫性,支持用戶精確控制相機運動,同時保留對象運動。CAVIA的設計靈活性使其能與多種數據源聯合訓練,顯著提升視頻的幾何一致性和感知質量,在虛擬現實、增強現實和電影制作等領域具有應用潛力。
CAVIA的主要功能多視角視頻生成:從單一輸入圖像生成多個視角的視頻序列,為用戶提供相機運動的精確控制,同時保留對象運動。視角和時間一致性:基于視角集成注意力模塊,增強視頻在不同視角和時間幀之間的一致性。相機控制:用戶精確指定相機運動,生成與視點指令一致的視頻幀。聯合訓練策略:用靜態視頻、動態視頻和真實世界的單目動態視頻的混合數據源進行訓練,提高視頻生成的質量和真實感。多視角擴展:在推理時,擴展到四個視角,提供改進的視角一致性。3D重建:CAVIA生成的幀用于3D場景的重建,展現出高感知質量的三維效果。CAVIA的技術原理基于SVD的模型:基于預訓練的穩定視頻擴散(SVD)模型構建,模型基于添加時間卷積和注意力層擴展Stable Diffusion 2.1。Plücker坐標:引入Plücker坐標實現相機控制,將相機的位置和方向信息作為嵌入與原始潛在輸入一起使用,確保生成的視頻幀遵循精確的視點指令。跨幀注意力(Cross-frame Attention):改進原有的1D時間注意力模塊,基于3D跨幀時間注意力模塊,支持空間-時間特征的聯合建模,適應視角變化引起的大像素位移。跨視角注意力(Cross-view Attention):為提高多視角視頻的一致性,引入3D跨視角注意力模塊,鼓勵在生成過程中交換不同視圖之間的信息。數據混合的聯合訓練策略:基于聯合訓練策略,結合靜態場景視頻、動態對象視頻和真實世界的單目視頻,讓模型能學習到豐富的對象運動和復雜的背景信息。3D重建能力:CAVIA生成的視頻幀基于3D重建技術轉換成三維場景,展現在生成具有高感知質量的三維內容方面的潛力。CAVIA的項目地址項目官網:ir1d.github.io/CaviaarXiv技術論文:https://arxiv.org/pdf/2410.10774CAVIA的應用場景虛擬現實(VR)和增強現實(AR):生成VR和AR內容,提供更加真實和沉浸式的體驗,尤其是在游戲、模擬訓練和虛擬旅游等領域。電影和視頻制作:在電影制作中,預覽和模擬復雜的相機運動和場景布局,或特效制作,增強視覺效果。3D內容創作:輔助3D建模和動畫制作,生成多視角視頻輔助設計師在創作過程中更好地理解和展示3D模型。視頻會議和遠程協作:在視頻會議中,模擬不同的相機視角,提供更加自然和靈活的遠程交流體驗。教育和培訓:在教育領域,創建模擬實驗和培訓場景,提供多角度的學習材料,增強學習體驗。 
