查看引用/信息源請點擊:中國AI網

探索采用基于深度學習的視頻超分辨率(VSR)技術增強360度視頻

中國AI網 2025年11月06日)全方位視頻或360度視頻在虛擬現實領域主要用于實現沉浸式交互瀏覽體驗。然而,360度視頻有限的空間分辨率導致每度視角無法獲得足夠的像素表征,從而限制了沉浸式體驗的視覺品質。盡管傳統視頻采用的深度學習視頻超分辨率(VSR)技術可提供基于軟件的解決方案,但相關技術未能解決360度視頻信號在等距柱狀投影中存在的畸變問題。另一個障礙是可用于研究的360度視頻數據集稀缺。

針對這個問題,澳大利亞迪肯大學團隊創建了新型360度視頻數據集(360° Video Super-Resolution),并研究了傳統VSR模型在360度視頻的擴展性。研究人員進一步提出了名為Spherical Signal Super-resolution with a Proportioned Optimisation(S3PO)的新型深度學習模型。S3PO采用具有注意力機制的循環建模,擺脫了對齊等傳統VSR技術的束縛。通過專門設計的特征提取器和解決球面畸變的新型損失函數,S3PO在360度視頻數據集超越了最先進的傳統VSR模型和360度專用超分辨率模型。

迪肯大學提出S3PO模型實現360度視頻超分辨率增強  第1張

360度視頻日益普及,正迅速成為虛擬現實多媒體內容的首選格式。這種技術提供360度水平視場角和180度垂直視場角。通過允許用戶在虛擬環境中進行最高六自由度的交互,360度視頻主要為其觀眾創造沉浸式體驗。相關視頻通過多傳感器單相機或多臺單傳感器相機制作,各傳感器采集的畫面經拼接形成完整全景視圖。隨后通過映射偏航角和俯仰角,將球面信號投影至矩形平面形成等距柱狀投影(ERP)。

盡管存在立方體映射等其他投影形式,但等距柱狀投影是目前最廣泛使用的方案,同時是本研究采用的格式。圖1展示了ERP幀實例,呈現出因球面信號映射到矩形平面而產生的寬廣視場角和畸變特性。為達到與傳統1080p高清視頻相當的瀏覽體驗,YouTube VR推薦360度視頻需具備3840×2160(=[1920×1080]×4)像素分辨率。鑒于更廣闊的視平面,360度視頻需要傳輸比傳統視頻多8倍的數據量才能達到相近的感知質量。為模擬人類生物視覺感知,每度視角需要60個像素進行表征。這意味著真正沉浸式體驗需要21,600像素來呈現360度水平視場角。因此制約360度視頻在沉浸式場景中應用的關鍵因素在于格式的空間分辨率。

為彌補這一缺陷,澳大利亞迪肯大學團隊探索采用基于深度學習的視頻超分辨率(VSR)技術增強360度視頻。傳統視頻VSR技術的最新進展表明,其能夠將低分辨率視頻增強至最高4倍分辨率。這種專為360度視頻場景設計的軟件解決方案,可解決該領域空間分辨率相關的局限性。

為此,研究人員探索通過360度視頻超分辨率實現等距柱狀投影4倍空間分辨率提升。為驗證相關技術,他們創建了新型360度視頻數據集以評估模型在超分辨率任務中的性能。他們提出的360度視頻數據集包含590個ERP格式視頻片段,具有多樣化的空間指數和時間指數。

迪肯大學提出S3PO模型實現360度視頻超分辨率增強  第2張

他們進一步提出名為S3PO的新型深度學習360度視頻超分辨率模型,可通過針對性循環架構、360度特征提取器和新型損失函數優化來解決現有VSR模型的局限性。實驗評估表明,雖然傳統VSR模型在360度視頻上表現良好,但通過針對性建模和訓練可進一步提升性能。在傳統信號和360度信號專用質量評估體系中,S3PO模型超越了現有最先進的傳統及360度VSR模型。

團隊的主要貢獻可總結為:

開發了具有更豐富時空語境的新型360度視頻數據集,為360度VSR算法提供基準平臺;

研究了傳統VSR模型在360度視頻上的擴展性

提出新型深度學習360度VSR模型S3PO,其特點包括:a) 融合滑動窗口和雙通道殘差塊的混合循環架構,有效利用局部與全局信息;b) 配備注意力機制的全景專用特征提取器,實現局部特征提取和信息補充;c) 將超分辨率任務從傳統視頻域適應至360度視頻域;d) 加權球面平滑L1損失函數實現畸變感知超分辨率;

在現有及新型360度視頻數據集上實現最先進的超分辨率性能

相關論文:Omnidirectional Video Super-Resolution using Deep Learning

https://arxiv.org/pdf/2506.14803

總的來說,研究證實了傳統視頻超分辨率(VSR)模型在360度視頻能取得滿意效果。為確保適用于360度多媒體底層計算機視覺系統的多樣化訓練和測試條件,他們組建并描述了新型數據集。傳統VSR模型適用于全向視頻,因為等距柱狀投影(ERP)幀與傳統視頻幀格式相似。然而,由于360度視頻存在垂直軸畸變和水平軸循環連續性,ERP幀內的數據具有獨特性。

針對ERP特性,團隊提出新型360度VSR模型(S3PO),其具備ERP專用架構、特征提取器和優化器。實驗評估和消融研究證實,S3PO模型憑借360度內容專用架構子組件、域適應訓練和畸變感知損失優化的協同優勢,實現了超分辨率性能的卓越表現。

盡管S3PO模型未采用對齊等傳統VSR步驟,其性能仍超越包括采用對齊技術在內的最先進超分辨率模型。S3PO模型和360VDS數據集為未來360度多媒體研究開辟了新機遇。可進一步研究隱式/顯式對齊技術的擴展應用,通過適當調整對齊策略來適應ERP幀的畸變和循環特性。另外,可評估S3PO質量增強對體驗質量的影響,以深入理解模型如何改變用戶對360度多媒體的感知與消費體驗。