ReCapture是什么

ReCapture是谷歌和新加坡國立大學推出的視頻處理技術,能從單一用戶提供的視頻中生成具有新相機軌跡的新視頻。ReCapture用多視圖擴散模型或基于深度的點云渲染生成帶有新相機軌跡的噪聲錨視頻,采用掩碼視頻微調技術,將錨視頻轉換成干凈、時間一致的重新角度化視頻,保留原始視頻中的場景運動,從新角度展現場景。ReCapture能合理地想象出原始視頻中不可見的場景部分。

ReCapture  谷歌和新加坡國立大學共同推出的視頻處理技術 第1張ReCapture的主要功能生成新視角視頻:從一個用戶提供的源視頻中生成具有全新相機軌跡的視頻,支持從不同角度觀察同一場景。保留原有場景運動:在生成新視角視頻的同時,保留源視頻中的所有現有場景運動。電影級相機運動:模擬電影級別的相機運動,如縮放、平移和傾斜,增強視頻的視覺效果。場景補全:合理地想象并補全源視頻中不可見的場景部分,增強視頻內容的完整性。提高視頻質量:基于掩碼視頻微調技術,將帶有噪聲的錨視頻轉換成干凈、時間一致的高質量視頻。ReCapture的技術原理錨視頻生成深度估計與點云渲染:基于逐幀深度估計,將視頻幀轉換為3D點云序列,根據用戶指定的相機運動模擬新視角,渲染點云序列以生成新的視頻幀。多視圖擴散模型:對于更復雜的相機軌跡(如圍繞場景中某點的軌道),用多視圖擴散模型來生成新視角的視頻幀。掩碼視頻微調時間LoRA(低秩適應):在掩碼錨視頻上微調時間LoRA學習場景動態,關注于學習錨視頻中有意義的像素部分,忽略未知區域。空間LoRA:在源視頻的增強幀上微調空間LoRA學習場景的外觀,確保填補的像素與原視頻像素無縫融合。視頻模型的強先驗:用視頻模型的強先驗知識,在掩碼區域自動填充合理內容,顯著提高視頻的時間一致性,消除錨視頻中的抖動。ReCapture的項目地址項目官網:generative-video-camera-controls.github.ioarXiv技術論文:https://arxiv.org/pdf/2411.05003ReCapture的應用場景電影和視頻制作:電影制作人重新編輯和調整已拍攝的視頻,改變原有的相機角度和運動,用創造新的視覺效果或改進場景構圖。視頻編輯和后期制作:視頻編輯者修正或增強視頻內容,例如,改變相機視角突出視頻中的關鍵元素或消除不想要的背景。虛擬現實(VR)和增強現實(AR):在VR和AR應用中,生成更加沉浸式和互動式的視頻內容,提供從不同視角觀察場景的能力。新聞和紀錄片:記者和紀錄片制作者重現事件,從多個角度展示新聞故事或歷史事件,增加報道的深度和維度。體育賽事直播:體育賽事的直播提供更多的視角,讓觀眾從不同的相機角度體驗比賽,增強觀賽體驗。