查看引用/信息源請點擊:中國AI網
空間視頻數據集
(中國AI網 2025年10月16日)立體視頻因其能夠通過虛擬現實和增強現實等多種應用提供沉浸式三維內容,長期以來一直是研究的重點。其雙視角格式固有的雙目視差線索可增強深度感知與真實感。但直至近期,用于采集、編碼與觀看高質量立體視頻的端到端流程既未廣泛普及,同時未曾針對消費級設備優化。如今,Apple Vision Pro等現代頭戴式顯示器已內置支持立體視頻采集、硬件加速編碼、以及在Apple Vision Pro和Meta Quest 3等設備的無縫播放,用戶操作極為簡便。蘋果將這一高效工作流稱為”空間視頻”。全民可用的完整立體視頻流程催生了新的應用場景。盡管技術進步顯著,目前依然缺乏包含完整空間視頻流程的公開數據集。
在一項研究中,奧地利克拉根福大學,美國東北大學,英國卡迪夫大學和北京智源人工智能研究院團隊提出空間視頻數據集SVD,包含300段5秒視頻序列(其中iPhone Pro與AVP各拍攝150段),以及10段時長至少2分鐘的長視頻。SVD數據集以開放許可協議公開發布,旨在促進編解碼器性能評估、主客觀體驗質量評估、基于深度的計算機視覺、立體視頻流傳輸以及神經渲染和體積捕捉等新興三維應用的研究。

沉浸式媒體技術通過呈現更真實且視覺沖擊力更強的場景,正在重新定義數字內容的體驗方式。虛擬現實、增強現實和混合現實的發展推動了高分辨率頭戴顯示器、空間音頻集成及改進的立體渲染技術的進步。這種技術在娛樂、教育和視覺傳達等領域實現了高度沉浸的體驗,其中真實感和強烈臨場感至關重要。
立體視頻作為沉浸式媒體的核心組件,通過模擬人類視覺利用雙目視差感知深度的機制來提升真實感。實際應用中需使用雙鏡頭或雙攝像頭設置采集場景的左右視角,并通過精密校準保持已知基線距離和光學參數。采集過程中,精確同步與幾何校準確保各視角的對應像素位于同一極線,便于準確視差估算。播放時,專用顯示技術將左右視圖分別投射至相應眼睛,人類視覺系統通過融合兩幅圖像并利用微小瞳距差重建連貫深度圖,最終形成逼真的三維空間感知。
盡管立體視頻在深度感知方面優勢明顯,但其發展長期受限于采集復雜度高、需嚴格校準、雙流數據速率要求高以及顯示硬件限制等因素,導致其在消費級和廣播領域的應用受阻。
近年來,支持原生立體視頻工作流的消費級設備顯著降低了技術門檻。iPhone Pro等智能手機內置雙攝像頭支持空間視頻采集,AVP和Meta Quest 3等頭顯設備提供原生播放支持。這些設備同時配備硬件加速編碼功能,可通過HEVC(x265)等現代編解碼器實現高效壓縮。
蘋果提出”空間視頻”術語來描述這種從采集到播放緊密集成的流程,使用戶能以最小技術成本創作和體驗三維內容。盡管已有大量成熟的二維視頻數據集,但高質量立體視頻數據集依然十分稀缺,這主要源于立體視頻采集的技術挑戰、可用立體顯示設備的缺乏以及優化立體視頻編碼器的需求。隨著采集技術的進步和沉浸式顯示設備的普及,障礙已大幅減少。
為推動立體視頻處理研究,奧地利克拉根福大學,美國東北大學,英國卡迪夫大學,北京智源人工智能研究院團隊推出空間視頻數據集SVD,一組使用iPhone 16 Pro和AVP設備采集的高質量立體視頻片段合集。數據集包含每臺設備拍攝的150段5秒短視頻及10段雙方共同拍攝的長視頻,涵蓋多樣化的室內外環境、不同運動動態和獨特采集場景。SVD專為支持立體圖像/視頻編碼、流傳輸、體驗質量評估和畫質評價等廣泛應用而設計,為研究者推進沉浸式媒體技術提供了強大資源。
本數據集豐富的特征和高品質立體內容可支持多媒體、計算機視覺及沉浸式媒體領域的廣泛研發應用。以下概述幾個可有效利用該數據集的關鍵方向:
編解碼器開發與比較:本數據集可作為立體及多視圖內容編解碼器開發與評估的實用基準。早期標準如H.264中的MVC和HEVC中的MV-HEVC通過引入視間預測提升立體視頻壓縮效率。近期蘋果在其空間視頻格式中采用MV-HEVC,且x265編碼器4.1版本起支持MV-HEVC,從而在其高效壓縮框架內實現優化立體編碼。憑借空間/時間復雜度、視差和SSIM等多樣化特征,本數據集支持率失真性能、視圖一致性和編碼速度方面的全面編解碼器比較,還可用于評估快速編碼算法和基于學習的內容自適應壓縮策略。
單目轉立體視頻:本數據集可用于訓練和評估將單目(2D)視頻轉換為立體(3D)格式的模型——這對增強現實/虛擬現實應用中提供沉浸式內容日益重要。作為固有不適定問題,立體轉換技術隨深度學習發展顯著,從早期卷積方法演進至基于擴散的先進模型。這些方法通常通過估算單目深度并通過修復或生成合成補償遮擋區域來從左視圖生成右視圖,但常存在偽影且缺乏結構準確性控制。通過提供高質量立體圖像對、密集視差圖和SSIM等感知相似性指標,本數據集為提升立體視圖合成的真實感、一致性和保真度提供了強監督與驗證工具。
視頻質量評估:本數據集憑借其多樣特征非常適合進行立體視頻主觀質量評估。這種可變性支持受控實驗,用于評估不同內容特性如何影響頭戴顯示器和立體顯示器等各種觀看條件下人類對三維視頻質量的感知。主觀研究結果可用于開發和驗證專為立體內容定制的全參考與無參考視頻質量指標。
視頻流傳輸:數據集中的長視頻序列特別適合流傳輸應用,可實時評估自適應傳輸策略。這些片段支持內容感知碼率階梯構建研究,其中空間、時間和視差特征可為立體視頻優化質量層級提供依據。數據集同時便于每標題編碼,允許根據個體內容特性定制編碼參數以提高壓縮效率和視覺質量。另外,它支持三維流傳輸中體驗質量研究,包括碼率波動、深度偽影和視間不一致性的影響。通過結合客觀特征與潛在主觀評估,本數據集為開發和測試立體及沉浸式視頻服務的自適應流傳輸算法提供了全面基礎。
相關論文:SVD: Spatial Video Dataset
https://arxiv.org/pdf/2506.06037
總的來說,SVD是一個旨在支持立體與沉浸式媒體技術廣泛研究的公開空間視頻數據集。數據集采用iPhone Pro和AVP等消費級設備采集,包含涵蓋大量真實場景的短長兩種高質量立體視頻序列。除原始視頻外,團隊同時提供空間/時間復雜度、亮度、色彩豐富度、視差和視間SSIM等底層特征集,支持多應用領域的深度分析。SVD專為編解碼器開發與基準測試、單目轉立體視頻合成、主客觀視頻質量評估及自適應流傳輸等任務設計。其多樣化的內容類型、延長序列時長和逐幀指標使其成為傳統和新興三維視頻處理算法訓練、評估與比較的理想資源。
具體數據集請訪問這個頁面。

