與以前的方法相比,FovealNet的速度至少提高了1.42倍,對注視點輸出的感知質量提高了13%。

中國AI網 2025年05月08日)利用實時眼動追蹤,注視點渲染可以提高硬件效率和視覺質量,因為系統可以只在注視點區域(視網膜上視覺靈敏度最高的小區域)渲染高分辨率圖形,而外圍視圖則以較低分辨率渲染。然而,基于深度學習的注視點追蹤解決方案往往表現出追蹤誤差的長尾分布,可能會降低用戶體驗,并導致失準和視覺質量下降。

在一項研究中,美國紐約大學團隊提出了一種人工智能驅動的注視點追蹤框架FovealNet,并旨在通過戰略性地提高注視點追蹤精度來優化系統性能。

為了進一步降低注視點追蹤算法的實現成本,FovealNet采用了一種基于事件的修建方法,從輸入圖像中消除了超過64.8%的非相關像素。另外,它包含一個簡單而有效的令牌修剪策略,可以動態地刪除令牌而不會影響追蹤準確性。

最后,為了支持不同的運行時渲染配置,團隊提出了一種系統性能感知的多分辨率訓練策略,令注視追蹤DNN能夠更有效地適應和優化整體系統性能。

評估結果表明,與以前的方法相比,FovealNet的速度至少提高了1.42倍,對注視點輸出的感知質量提高了13%。

紐約大學研發FovealNet注視追蹤框架,延遲降低42%助力VR渲染優化  第1張

人類視敏度在不同的區域內并不相同。視網膜的中心區域負責我們最清晰的視覺。這個區域盡管小,但卻密集地布滿了感光細胞,允許我們能夠在視線范圍內感知到細微的細節和鮮艷的色彩。

在注視點區域之外,我們的視覺敏銳度迅速下降,這意味著周邊視覺對細節的敏感度降低。注視點渲染正是利用了這種現象,將更多的計算資源分配給注視點區域,同時減少外圍的細節,從而降低渲染工作量并顯著提高系統性能。

通過將渲染保真度與人類注視模式對齊,注視點渲染優化了視覺體驗和計算效率。所以,VR系統通常需要注視追蹤來進行注視點渲染,而這通常由深度神經網絡DNN完成。

通過實時精確確定用戶的焦點,基于注視追蹤的注視點渲染(TFR)可以精確捕獲到以最高分辨率渲染的注視點區域位置,然后從精細到粗略地進行渲染。

準確的注視追蹤是TFR成功實現的基礎。如果沒有可靠的注視追蹤,系統就不能準確地適應用戶的視覺焦點,從而導致渲染細節和真實注視位置之間的潛在錯位,從而導致明顯的偽影和降低用戶體驗。

所以,集成強大的注視追蹤機制對于優化性能和確保TFR中無縫、高保真的視覺效果至關重要。

盡管之前的研究有提出過基于AI的注視點追蹤解決方案,但實驗表明,它們會大大降低TFR的效率。這是因為盡管平均注視點追蹤誤差較低,但誤差通常遵循長尾分布,導致在各種場景中檢測用戶注視點位置時存在非常大的不準確性。

相關錯誤可能進一步導致渲染的注視點區域與用戶的實際注視錯位,導致視覺質量下降,破壞了焦點渲染的預期性能收益,并最終降低用戶體驗。

為了解決這一挑戰,紐約大學團隊引入了一種新的訓練方法,將TFR系統的性能直接集成到注視點追蹤DNN的訓練過程中,從而優化了整體性能。

紐約大學研發FovealNet注視追蹤框架,延遲降低42%助力VR渲染優化  第2張

具體來說,團隊專注于最小化系統延遲,因為延遲是VR環境中的關鍵因素。另外,所述方法可以擴展到優化不同TFR場景的各種系統性能指標(例如功耗)。同時,先前的研究強調了視線追蹤DNN的實現開銷的重要性,因為這種額外的成本通常會超過從TFR中獲得的性能收益。

為了降低注視追蹤深度神經網絡的計算復雜度,研究人員開發了一種簡單的方法,專注于有效地捕獲以瞳孔為中心的眼睛區域,最大限度地減少對無關外圍像素的計算。

這種事件驅動的設計支持在執行期間有效地重用緩沖的注視追蹤結果。不僅只是這樣,他們在注視點之宗模型中引入了針對輸入標記的細粒度修剪機制,減少了在非信息區域(如睫毛)的不必要計算。

最后,圖像渲染和追蹤的硬件處理延遲通常表現為動態行為,受用戶對系統設置的修改和其他應用的資源分配影響。這種可變性需要對注視追蹤DNN進行動態配置,以確保最佳的系統性能。

為了解決這個問題,研究人員引入了一個多分辨率DNN訓練框架,而所述框架可以同時訓練不同配置的注視追蹤DNN。在運行過程中,它可以根據當前系統條件選擇最合適的DNN配置,令TFR的動態性能達到最佳。

相關論文:FovealNet: Advancing AI-Driven Gaze Tracking Solutions for Optimized Foveated Rendering System Performance in Virtual Reality

總的來說,FovealNet這個基于人工智能的注視點追蹤解決方案旨在提高TFR系統的性能。FovealNet可以使用包含系統性能指標的損失函數直接進行優化,并實現相較于基線更好的結果。為了進一步降低注視追蹤算法的實現成本,FovealNet利用基于事件的裁剪技術,從輸入圖像中丟棄不相關的像素。另外,它具有高效的令牌修剪策略,可以在不犧牲追蹤準確性的情況下動態消除處理過程中的令牌。