擴展頭部旋轉數據集

中國AI網 2025年05月22日)XR是向用戶傳送多媒體內容的一種革命性方法。它受歡迎的一大原因是沉浸感和交互性。對于擴展現實,生成和傳輸的內容在很大程度上取決于用戶在看什么。無縫系統主動考慮用戶的運動,所以需要準確預測即將到來的旋轉。

訓練和評估這樣的預測器需要大量的定向輸入數據,而數據的收集成本非常高,因為它需要人類測試對象。更可行的方法是通過測試對象收集適度的數據集,然后使用合成數據生成方法將其擴展到更大的數據集。

在一項研究中,安特衛普大學和加泰羅尼亞理工大學團隊提出了一個基于TimeGAN的頭部旋轉時間序列生成器。這種方法能夠用與測量時間序列分布密切匹配的新樣本擴展頭部旋轉數據集。

TimeGAN頭部旋轉數據生成技術通過深度學習模型合成逼真XR用戶運動時序數據  第1張

XR是媒體消費的一場重大革命。除了廣泛用于娛樂目的之外,XR同時為其他任務提供了新的方法,包括培訓、遠程操作以及建筑和施工等。XR體驗的一個關鍵促成因素是它如何在體驗中準確而迅速地反映用戶的真實運動。

XR中的用戶自由對系統提出了具有挑戰性的要求。當用戶轉動頭部時,顯示的內容必須立即適應。具體地說,延遲決定了任何用戶暈動的效果必須在20毫秒內可見,以避免用戶感到惡心。有數種算法有助于滿足這種需求。

生成的內容通常在顯示之前通過異步時間扭曲等算法扭曲,使用最新的用戶姿勢測量。當顯示預先錄制的360度內容時,視口相關編碼確保僅傳輸預期在用戶視場內的內容,從而減少傳輸延遲。

另外,遠離用戶預期注視中心的視頻可以以較低的質量編碼,進一步減少數據大小??傮w而言,旨在滿足運動到光子延遲的算法通常包括深度學習組件,將用戶的方向數據轉換為有用的輸出,例如如何壓縮視覺數據。訓練和測試深度學習算法是一個眾所周知的數據饑渴過程。另外,對完整算法的廣泛評估再次需要大量的定向數據。

在過去的數年中,業界已經發表了一系列的XR定向測量數據集。通常,數據集由時間戳方向的日志組成,以規則的間隔測量,并以偏航-俯仰-滾轉格式表示。

收集數據集通常需要幾十到幾百個測試對象,每個測試對象都要看幾分鐘到幾十分鐘的XR內容。顯然,收集數據集是一個昂貴且勞動密集型的過程,而且不能很好地擴展。

一個明顯更有效的方法是應用合成數據生成技術,在不改變整個數據集分布的情況下,用新的、獨特的樣本來增強現有數據集。盡管如此,對這種方法的研究非常有限,只有少數研究提出了通過傅里葉變換生成數據。

相關方法將方向時間序列作為信號,將其轉換為功率譜密度,然后對平均功率譜密度進行建模。然后,將模型的擾動版本轉換回信號,最后轉換為定向時間序列。

然而,這導致合成時間序列與輸入時間序列集合的平均值緊密匹配,而不是它們的完整分布。相比之下,安特衛普大學和加泰羅尼亞理工大學團隊建議使用一種功能更強大的合成數據生成方法,即生成對抗網絡(GAN)。

GAN由兩個并行訓練的子系統組成。生成器生成合成樣本,而鑒別器嘗試將樣本分類為真實樣本或合成樣本。在零和游戲中,兩個子系統交互地提高了它們的性能:鑒別器發現合成樣本的特征,而生成器學習避免引入特征。理想情況下,生成器最終輸出與真實樣本無法區分的唯一樣本。

由于定向數據集中的每個樣本都是一個時間序列,所以可靠的合成樣本不僅要在觀察單個時間步長時匹配原始分布,而且要在觀察其隨時間的演變時匹配原始分布。一種名為TimeGAN的修改旨在滿足這一需求。

在研究中,安特衛普大學和加泰羅尼亞理工大學團隊依靠TimeGAN來生成真實的合成定向數據樣本。在訓練期間,向TimeGAN提供定向數據序列,以便它最終學會生成類似但以前未見過的序列。

他們只將TimeGAN應用于方向數據,而不是位置數據,因為大多數應用主要依賴于方向數據。位置數據的動態程度較低,在應用中影響有限。

TimeGAN頭部旋轉數據生成技術通過深度學習模型合成逼真XR用戶運動時序數據  第2張

為了衡量這些合成數據集的效用,我們需要一個度量標準來衡量真實數據集和合成數據集的分布有多相似。通PCA,t-SNE和TSTR等通用指標通常用于這一目的,然而,它們都很難直觀地進行解釋。目前尚不清楚相關指標何時表示“真實”的合成數據集,這意味著它們的主要用途是比較不同來源的合成數據。

幸運的是,在這項研究中考慮的定向數據本身可以非常容易進行直觀解釋。所以,團隊選擇放棄上面描述的常用指標,而是定義特定于頭部旋轉數據的指標,共同表征數據集的重要特征。

相關論文:Generating Realistic Synthetic Head Rotation Data for Extended Reality using Deep Learning

總的來說,團隊提出了一種新方法來生成用于XR應用的合成頭部旋轉數據。研究人員發現,與基于TimeGAN的方法能夠根據一系列指標生成真實的數據。相關指標包含了用戶看的地方以及他們轉頭的方式。

他們期望這種方法對包括動態多媒體編碼和毫米波波束形成在內的多個XR相關領域的研究人員提供價值。