查看引用/信息源請點擊:中國AI網

它不僅計算高效,而且能適應多種視頻生成任務,非常適用于虛擬現實等領域

中國AI網 2025年09月22日)擴散模型的最新進展徹底改變了視頻生成技術,能夠創建高質量、時間一致性強的視頻序列。然而,由于長序列中存在的閃爍和畫質退化問題(尤其是在快速運動場景中),生成高幀率視頻依然是一項重大挑戰?,F有方法常受限于計算效率低下以及在長序列中保持視頻質量的局限性。

在一項研究中,韓國RECON Labs,延世大學和成均館大學團隊提出了一種基于預訓練擴散模型的無訓練高幀率視頻生成方法DiffuseSlide。所提出方法通過創新性地利用低幀率視頻中的關鍵幀,結合噪點重注入和滑動窗口潛在去噪技術,無需額外微調即可實現平滑連貫的視頻輸出。大量實驗表明,所提出方法顯著提升了視頻質量,增強了時間連貫性與空間保真度。它不僅計算高效,而且能適應多種視頻生成任務,非常適用于虛擬現實等領域。

韓國研究團隊提出無訓練高幀率視頻生成方法DiffuseSlide  第1張

近期技術進步顯著提升了視頻生成能力,通過大規模數據集、先進神經網絡架構和復雜訓練技術的結合,當前最先進的擴散視頻模型能夠生成兼具空間和時間保真度的逼真且內容豐富的視頻序列。這一突破性進展使其成為沉浸式AR/VR環境等應用的重要工具。

盡管現有視頻生成模型成果顯著,但隨著視頻長度增加,畫質退化問題逐漸凸顯,視覺偽影和不一致性會隨時間推移愈加明顯。這一挑戰在高速運動場景中尤為關鍵,因為此類場景需要無縫過渡和流暢的視覺體驗以維持真實感和觀眾沉浸感。所以,當前亟需改進高幀率視頻生成技術,特別是在快速運動場景中,低幀率會導致卡頓和視覺體驗不佳。

生成高幀率視頻的一種直觀方法是關鍵幀插值。通過創建中間幀,這類方法能實現關鍵幀之間的平滑過渡。傳統方法如光流法和基于核函數的方法通過估計幀間運動來合成中間幀。盡管光流法通過計算像素級運動矢量指導幀合成,但在處理復雜或大尺度運動模式時難以保持視覺質量。類似地,依賴局部卷積的核函數方法在面對顯著空間位移時也存在局限。

近年來,許多研究探索使用生成模型進行幀插值,其中擴散模型表現出巨大潛力。例如LDMVFI和MCVD將幀插值視為條件生成任務,利用擴散過程在關鍵幀之間合成中間幀。這些模型在復雜運動場景中能提供更高的視覺保真度和時間一致性,在質量和魯棒性上超越傳統基于像素的方法。

盡管取得這些進展,但由于計算和內存限制,大多數現有視頻生成和幀插值模型在擴展到高幀率時仍面臨挑戰。在一項研究中,韓國RECON Labs,延世大學和成均館大學團隊提出了一種無需額外訓練或微調的預訓練視頻擴散模型高幀率生成方法。

他們引入了新型高幀率視頻生成流程DiffuseSlide,其以低幀率關鍵幀為條件生成插值幀。受近期研究啟發,流程融合了噪點去噪、噪點重注入和多圖像條件控制的滑動窗口方法。首先使用預訓練圖像轉視頻擴散模型生成低幀率視頻潛在表示,隨后在潛空間進行線性插值生成初始高幀率潛在表示。為減少插值幀偽影,向初始潛在表示引入受控噪點,部分破壞其結構以實現精細化處理。最后采用帶噪點重注入的反向擴散過程對幀進行去噪,最終生成具有增強時間一致性的平滑高質量視頻。

另一種無訓練方法將幀插值重新定義為視頻修復任務,采用DDNM[的零空間投影方法使插值幀與關鍵幀空間對齊。雖然該方法具有潛力,但存在明顯局限:若生成的關鍵幀質量較差,這些缺陷會直接傳遞至插值幀,影響整體質量。相比之下,所提出方法在去噪階段同時優化插值幀和生成的關鍵幀,確保所有幀協同改進,最終產生更高質量且時間一致性更強的視頻。

利用預訓練去噪U-Net的優勢在于無需額外訓練即可生成高質量幀。但預訓練去噪U-Net的有限容量會導致后續幀出現模糊和過飽和現象,尤其在處理大量插值幀時更為明顯。針對長視頻序列,先前研究建議重新調度整個去噪過程,并在擴散模型可管理的長度內連續應用注意力機制。

然而,這種方法僅以首關鍵幀為條件,導致后續幀條件不足。為解決這一局限,團隊引入滑動窗口方法,將整個潛在序列劃分為可管理的子序列,每個子序列以相應關鍵幀為條件并獨立去噪。圖1展示了方法的整體流程示意圖。

研究人員在WebVid-10M數據集上評估了該方法。與其他基線方法相比,所提出方法在FVD、PSNR和SSIM等廣泛使用的指標上均達到最先進(SOTA)性能。

韓國研究團隊提出無訓練高幀率視頻生成方法DiffuseSlide  第2張

定量結果顯示在表1中。所提出提出的流程在所有關鍵指標(包括FVD、PSNR和SSIM)上均取得最佳性能,證明該方法能有效生成具有卓越時間和空間一致性的高幀率視頻。較低的FVD分數凸顯了我們方法在提升真實感和整體視頻質量方面的優勢,而較高的PSNR和SSIM值表明相比其他基線,流程能更好地保持與原始關鍵幀的保真度,保留細節和結構。這在保持關鍵幀完整性同時生成平滑過渡的高幀率視頻生成中至關重要。

定量結果證實所提出方法不僅能以最小閃爍或偽影生成高幀率視頻,還能確保準確參考關鍵幀。與存在重復運動偽影和閃爍問題的基線方法相比,我們的方法能持續輸出更平滑、視覺一致性更強的視頻。

團隊通過消融研究驗證了兩個關鍵組件的有效性:噪點重注入(N.R.I)和滑動窗口去噪(S.W),兩者對提升時間一致性和整體視頻質量至關重要。研究結果匯總于表2。噪點重注入通過在每步去噪后迭代引入噪點,有效減少插值幀偽影。缺乏噪點重注入時模型難以達到平滑數據流形,導致質量下降(表2)。噪點重注入逐步將幀重新對齊至數據流形,顯著改善時間一致性。

韓國研究團隊提出無訓練高幀率視頻生成方法DiffuseSlide  第3張

圖6進一步展示了噪點重注入的視覺影響:沒有N.R.I時插值幀會出現明顯偽影和不一致(紅框標注區域);通過每步重注入噪點,所提出方法有效優化幀間過渡,減少閃爍并保留細節,從而實現更平滑運動和更佳感知質量,證明了噪點重注入在高幀率視頻生成中的必要性。

韓國研究團隊提出無訓練高幀率視頻生成方法DiffuseSlide  第4張

韓國研究團隊提出無訓練高幀率視頻生成方法DiffuseSlide  第5張

研究人員同時評估了滑動窗口去噪的必要性。缺乏該技術時,僅以初始幀為條件的視頻潛在表示會隨序列推進而質量下降,導致模糊和保真度損失(圖5)?;瑒哟翱谌ピ胪ㄟ^將子序列獨立條件化于對應關鍵幀來解決這一問題,保持幀間質量一致性。將兩種技術(S.W和N.R.I)結合可獲得最優結果,證實它們通過確保結構一致性和平滑時間過渡在高幀率視頻生成中具有互補作用,同時有效減少偽影和閃爍。

他們將DiffuseSlide與基于訓練的方法LDMVFI進行對比。表3展示了幀率擴展的定量結果。雖然LDMVFI在PSNR和SSIM分數上更高,但這些指標主要側重于關鍵幀的精確重建而非整體感知視頻質量。DiffuseSlide在弗雷謝視頻距離指標上表現更優,凸顯了更好的真實感和時間一致性。

盡管在2倍設置下推理成本較高,但DiffuseSlide在4倍設置下具有計算競爭力。另外,DiffuseSlide的無訓練特性在實際應用中具有顯著優勢,因為大規模視頻擴散模型的訓練或微調往往不切實際。這使得所提出方法成為無需訓練類方法計算開銷的高幀率視頻生成場景的理想選擇。

當前開源圖像轉視頻模型針對短序列優化。將其擴展到更長視頻需采用連續注意力操作或多重推理技術,但擴散模型固有的慢推理速度會延長生成時間。擴散采樣速度的提升或專為長序列訓練的模型可進一步提高效率。

另外,由于DiffuseSlide是無訓練方法,其性能本質上依賴于大規模預訓練視頻擴散模型的能力。當前開源視頻擴散模型在處理極大運動或高度動態場景時仍存在局限,可能導致復雜場景中的輕微不一致。但隨著視頻擴散模型的持續改進,這些局限有望自然緩解,從而進一步提升所提出方法的有效性。

相關論文:DiffuseSlide: Training-Free High Frame Rate Video Generation Diffusion

https://arxiv.org/pdf/2506.01454

總的來說,DiffuseSlide是一種基于預訓練圖像轉視頻擴散模型的無訓練高幀率視頻生成方法。所述方法通過利用低幀率視頻作為關鍵幀,結合噪點重注入和滑動窗口潛在去噪進行插值,無需額外模型訓練或微調即可生成平滑高質量視頻。通過保持時間和空間一致性,DiffuseSlide有效緩解了線性插值中常見的閃爍和重影等問題。

大量實驗證明了DiffuseSlide的有效性,在FVD、PSNR和SSIM等關鍵視頻質量指標上均達到競爭優勢。所提出方法在WebVid-10M數據集上設立了新基準,超越了現有基線,證明了其在VR/AR等資源受限環境下進行高幀率視頻生成的適用性。

團隊指出,DiffuseSlide為生成高質量高幀率視頻提供了寶貴工具,為多種應用場景中更流暢的用戶體驗鋪平道路。未來研究可聚焦于優化擴散模型以實現更快采樣,或開發專為高幀率序列訓練的模型,以進一步提升性能和效率。