查看引用/信息源請點擊:中國AI網

在多用戶虛擬現實交互中優化體驗質量

中國AI網 2025年11月08日)在多用戶虛擬現實交互中優化體驗質量(QoE)需要在超低延遲、高精度運動同步與公平資源分配之間實現精妙平衡。盡管自適應關鍵幀提取技術能緩解傳輸開銷,但現有方法往往忽視帶寬分配、CPU頻率與用戶感知之間的因果關系,從而限制了QoE的提升。

在一項研究中,香港科技大學團隊提出一種智能框架,通過將自適應關鍵幀提取與因果感知強化學習(RL)相結合來實現QoE最大化。首先基于韋伯-費希納定律構建新型QoE度量指標,融合感知靈敏度、注意力驅動優先級和運動重建精度;隨后將QoE優化問題建模為混合整數規劃(MIP)任務,在水平公平約束下聯合優化關鍵幀比率、帶寬和計算資源。

團隊提出部分狀態因果深度確定性策略梯度(PS-CDDPG),將深度確定性策略梯度(DDPG)方法與因果影響檢測相結合。通過利用關于QoE如何受各種動作影響并決定的因果信息,他們探索由因果推斷(CI)計算權重引導的動作,從而提升訓練效率。基于CMU運動捕捉數據庫的實驗表明,本框架顯著降低交互延遲、提升QoE并保持公平性,相比基準方法實現更優性能。

香港科大提出因果強化學習新框架,顯著提升多用戶VR交互體驗  第1張

近年來虛擬現實行業實現顯著增長,在各領域催生突破性應用。作為以人類體驗和沉浸感為核心的技術,VR將實時多用戶交互列為關鍵應用方向。3D與多媒體技術的創新使VR突破傳統視頻通信的局限,提供更廣泛的沉浸式體驗。然而VR技術發展受限于其對超高清畫質的需求和延遲敏感性。另外,三維環境中人體運動的傳輸不僅提升VR功能復雜度,更增加了數據流資源需求。

為應對上述挑戰,研究者正探索在VR系統中實施注意力機制,通過聚焦用戶視場優化數據通信流程,最終降低數據量與延遲。虛擬場景渲染依賴3D模型和運動序列,這是動畫、VR及元宇宙的關鍵基礎。通過攝像頭或慣性測量單元傳感器等技術捕獲的人體運動數據,對于將用戶動作從物理環境同步至虛擬場景至關重要。盡管運動序列能高精度捕獲動作細節,但其對通信與同步的要求極高。

為解決這些問題,研究者正探索下一代傳輸技術并利用邊緣服務器的計算能力以提升服務質量(QoS)。另外,中間幀重建的可靠性使關鍵幀提取與運動重建成為重要技術。傳統QoS側重于誤碼率和延遲等技術標準,而體驗質量(QoE)作為以用戶為中心的指標,評估整體用戶滿意度與感知。通過強調服務滿足用戶期望的程度,QoE促進資源的合理分配與利用——這對在資源受限環境中實現VR沉浸體驗尤為關鍵。然而多媒體方法的適應性因用戶行為隨機性、感知閾值及服務公平性需求而復雜化,加之用戶對不同對象的注意力水平決定資源分配優先級,使得VR交互中的QoE提升更具挑戰性。

人工智能的擴展正革命性改變各領域,尤其在智能決策方面。利用智能代理的實時能力對于動態網絡環境中多用戶交互時的體驗優化至關重要。在機器學習算法中,強化學習(RL)以處理復雜動態系統而著稱。通過與環境交互,RL智能體可減少對大量訓練數據的依賴。但RL的主要挑戰在于訓練效率,其常需大量迭代過程以適應新環境。因果強化學習(CRL)通過融合因果推斷(CI)賦能RL訓練過程,已成為提升效率與可解釋性的新研究趨勢。

通過檢測動作對當前狀態的影響,智能體可識別訓練策略,從而降低訓練隨機。受此啟發,香港科技大學團隊利用韋伯-費希納定律構建多用戶VR交互中的QoE矩陣?;谧⒁饬Φ牟呗耘c關鍵幀通信方法旨在充分利用有限資源。為此,將QoE最大化問題建模為混合整數規劃(MIP)問題,在保證用戶間公平性的同時聯合優化關鍵幀比率、帶寬和計算資源。提出基于深度確定性策略梯度(DDPG)模型與因果影響檢測的新型決策算法,利用因果動作影響(CAI)評分量化動作對給定狀態的因果信息。隨后提出基于噪點的主動探索方案,根據候選動作CAI評分權重選擇動作。

因果影響檢測作為RL訓練的輔助手段,通過引導探索提升訓練性能而不改變行動者的決策過程,其主要改進在于提升訓練效率。另外,所提出方法集成狀態劃分與基于噪點的主動探索,需評估這些增強模塊的有效性。為此他們選擇以下基線方法進行對比:

DDPG:無因果影響檢測的原始DDPG算法,探索采用傳統噪點方法;

CAI+DDPG:無狀態劃分的基于DDPG的原始CRL方法,探索采用提出的噪點主動方法;

PS-CDDPG:提出的含狀態劃分與噪點主動探索的因果影響檢測DDPG。

香港科大提出因果強化學習新框架,顯著提升多用戶VR交互體驗  第2張

圖3與圖4展示不同框架的平均獎勵與QoE。盡管需考慮使用主動探索的原始因果影響檢測方法,但其結果因模型未收斂而被排除。圖中顯示本方法在訓練過程中表現出最佳收斂性能與最高精度——僅需70%迭代次數即可達到超過1.45的最佳獎勵。QoE結果受動作與當前狀態(尤其是用戶注意力)影響,因果影響檢測探究此類因果信息并為探索過程提供指導。通過策略性選擇對QoE有積極影響的動作,可使結果更符合獎勵要求,從而降低結果隨機性。

仿真表明獎勵提升比QoE更顯著,這是因為獎勵包含多維度量而CAI評分有效保持探索中的動作公平性。若在CDDPG中推斷所有狀態變量,相比DDPG幾乎無改進,這表明推斷模型試圖逼近與動作無關狀態變量的分布而失效。因此基于CAI模型計算的CAI評分無法指導探索中的動作選擇,噪點主動探索選擇的動作會類似于噪點探索的隨機動作,導致性能與DDPG相當。狀態劃分與探索方法的增強可保證推斷模型訓練精度并提升訓練效率。雖然DDPG延長迭代后可能達到相同平均獎勵,但訓練成本更高且影響有效性。因此該結構化方法不僅提升整體性能,更凸顯了在探索框架中整合因果分析的重要性。

基于ε-greedy的方法中,ε是控制探索比例的超參數,PS-CDDPG方法設為0.4。傳統噪點算法通常不考慮該參數且常設為1。為比較不同探索方法的影響,評估所提方案、純噪點探索及無探索的性能。圖5(a)(b)顯示:當傳統噪點探索的ε值較小時,探索動作不足且改進有限,結果與無探索相似;當ε設為1(DDPG常用設置)時精度提升,但訓練過程因添加更多噪點而不穩定。

香港科大提出因果強化學習新框架,顯著提升多用戶VR交互體驗  第3張

所提出方法在提升探索效率的同時避免噪點對訓練穩定性的影響,因此在常用設置(ε=1)或相同設置(ε=0.4)下均展現更高速度與穩定性。噪點方差σ2η也影響探索過程。為揭示其對所提噪點主動探索方案的影響,固定σ2η=0.01并比較ε在0-1范圍內的收斂結果,隨后固定ε=0.4比較不同σ2η的性能。圖5(c)-(f)進一步說明ε和σ2η對平均回報與QoE的影響:兩參數共同決定探索過程中噪點比例。當ε和σ2η值較小時改進不顯著,性能與無探索相似;但超參數設置過高時,過量噪點會影響推斷模型精度。當CAI值不準確時,模型性能趨近于同參數設置的純噪點探索。若σ2η過大,過度隨機動作甚至會阻礙RL智能體學習,從而降低決策精度。

系統分析PS-CDDPG算法的收斂性能后,選擇最優超參數設置并記錄具有最高平均獎勵的收斂模型以比較決策能力。為評估所提方法效率,對比以下多用戶交互基線方案:

原始方案:傳輸全部幀,無關鍵幀提取或注意力適配,帶寬均勻分配;

僅注意力方案:基于注意力模型僅傳輸用戶FoV內角色,但帶寬均勻分配;

33%/50%/66%固定關鍵幀比率:對不同注意力水平固定關鍵幀比率,帶寬與計算能力均勻分配;

自適應關鍵幀:根據不同注意力水平自適應調整關鍵幀比率。

圖6顯示各方案在不同時段的平均獎勵(基于500組測試數據)。顯然自適應關鍵幀技術在滿足(11f)(11g)約束條件下提供最高QoE性能,且平均獎勵在整個周期保持穩定。圖7展示總帶寬bmax變化的影響:雖然所有方案在極高/低帶寬下性能相當,但所提出方法在有限帶寬場景中優勢顯著。模型訓練后可自動適應不同交互場景并生成一致決策。通過傳輸前采用關鍵幀與注意力驅動方法,對帶寬的依賴顯著降低。

香港科大提出因果強化學習新框架,顯著提升多用戶VR交互體驗  第4張

圖8展示不同計算能力F對用戶體驗的影響:原始方案與僅注意力方案無關鍵幀提取過程,故性能不受CPU頻率影響。當F較低時,關鍵幀提取耗時較長導致高延遲或低關鍵幀比率;隨著計算能力提升,關鍵幀的優勢逐漸顯現,本算法表現最佳。

圖9顯示帶寬變化時不同用戶的延遲變化:帶寬增加使各用戶平均延遲持續降低,表明模型能有效平衡延遲減少與獎勵提升,適應不同帶寬條件。圖10展示不同用戶的總延遲:雖然計算能力不足時關鍵幀提取效率低,但圖中延遲差異不顯著,表明模型能根據計算資源選擇性調整關鍵幀比率,避免過度提取導致高延遲。

香港科大提出因果強化學習新框架,顯著提升多用戶VR交互體驗  第5張

圖11比較不同基線的平均延遲、QoE、傳輸成功率和公平性:基于注意力機制的幀選擇通過僅發送必要幀顯著降低下載延遲;關鍵幀提取增加計算量但降低下載延遲,從而提高傳輸成功率。所提出策略有效融合注意力機制與關鍵幀傳輸優勢,通過自適應關鍵幀比率提升QoE。另外,用戶間帶寬與CPU頻率的高效分配減少了關鍵幀提取時間Te,使所提出方法將傳輸成功率提高至99%以上。單純降低延遲不會直接提升QoE,同時需考慮過低關鍵幀比率的負面影響。

香港科大提出因果強化學習新框架,顯著提升多用戶VR交互體驗  第6張

圖12顯示所提框架同時實現最高平均QoE與良好公平性,這歸功于傳輸過程中的有效數據量管理與資源分配優化。原始方案與66%固定關鍵幀比率因所有用戶QoE均勻偏低而呈現高公平性,而所述策略在保持用戶間公平性能的同時實現更高QoE。

相關論文:Causal-Aware Intelligent QoE Optimization for VR Interaction with Adaptive Keyframe Extraction

https://arxiv.org/pdf/2506.19890

總的來說,團隊提出了創新框架以提升Sub-6GHz通信下多用戶VR交互的QoE。通過融合注意力策略、關鍵幀提取和韋伯-費希納定律,將QoE優化挑戰構建為MIP問題。所提PS-CDDPG算法結合DDPG方法與因果影響檢測,實現動態決策與高效模型訓練。引入狀態劃分方法與噪點主動探索增強推斷模型性能。

基于CMU運動捕捉數據庫的實驗表明,所述框架顯著提升收斂性能(減少30%以上迭代次數),同時降低延遲、保證公平性并提升QoE,性能超越基線方法。研究同時表明現有因果影響檢測算法在處理復雜環境時存在局限:僅使用DNN作為推斷模型難以準確逼近下一狀態變量的分布,影響推斷模型精度與RL智能體訓練。因此從狀態中消除與動作無關變量的影響,并通過噪點限制主動探索區域以提升推斷模型可靠性顯得尤為重要。未來團隊計劃采用DNN以外的先進模型作為推斷模型以進一步提升有效性。