將計算努力集中在注視點視覺區域能帶來顯著的計算節省

中國AI網 2025年09月05日)超分辨率(SR)技術對于在較低帶寬下傳輸高質量內容以及滿足虛擬現實和增強現實中的現代顯示需求至關重要。遺憾的是,當前最先進的神經網絡超分辨率方法計算成本依然高昂。意大利提契諾大學團隊認為,可以利用人類視覺系統(HVS)的局限性,有選擇性地分配計算資源,即通過低層次感知模型識別出感知上重要的圖像區域,并采用計算要求更高的超分辨率方法進行處理,而對重要性較低的區域則使用更簡單的方法。

這種方法的靈感來源于內容感知注視點渲染技術 ,它能在不犧牲感知視覺質量的前提下優化效率。用戶研究和定量結果表明,團隊提出的方法在計算需求上實現了顯著降低,且沒有可察覺的質量損失。所述技術與具體架構無關,非常適合VR/AR應用,因為將計算努力集中在注視點視覺區域能帶來顯著的計算節省。

研究人員提出的方法基于兩個關鍵觀點。首先,他們注意到神經超分辨率方法在重建高空間頻率信息方面的能力取決于模型的復雜性和規模。通過創建超分辨率模型的簡化版本,團隊得到了更高效的解決方案,但代價是其無法重建高頻內容。他們利用在圖像數據集上測量得到的衰減曲線(代表不同模型重建不同空間頻率的能力,見圖2),為特定的一組CNN模型量化了這些權衡關系。

意大利研究團隊提出基于人眼感知的自適應超分辨率優化方法  第1張

第二個觀察結果是,超分辨率模型重建高頻內容的必要性取決于局部圖像內容以及人眼觀察者感知重建內容的能力。例如,某些圖像區域由于視覺掩蔽效應導致可見性降低,因此不需要高質量重建。

基于這兩個觀察,意大利提契諾大學團隊提出了一種感知感知的自適應超分辨率方法。所述解決方案針對每個圖像區域,首先利用自研的感知模型分析其所需的超分辨率質量,然后應用能夠提供足夠質量的最有效超分辨率模型。這種感知優化使得團隊能夠最小化不必要的計算,避免浪費在重建不可感知的空間頻率。

在研究中,他們探索了兩種平衡超分辨率解決方案速度與質量的方法:網絡分支和不同的網絡深度。另外,將雙三次插值作為重建模型層次結構中的最低級別,以實現最大效率。團隊指出,這是首次嘗試基于人類視覺系統的需求來優化超分辨率方法。

為評估超分辨率重建質量,研究人員比較了超分辨率輸出結果的傅里葉變換幅度與對應空間頻率下的ground truth。給定一張真實圖像,將其下采樣,然后使用超分辨率方法上采樣,并計算衰減曲線:

意大利研究團隊提出基于人眼感知的自適應超分辨率優化方法  第2張

其中 F 表示傅里葉變換,φ 代表超分辨率方法,k 是下采樣因子,N 是圖像數量。曲線通常在 (0,1) 范圍內,表示方法重建各頻帶的能力。然后,使用自然圖像數據集,針對不同 k 值的每個網絡變體預先計算了衰減曲線。衰減曲線作為網絡性能的高效代理指標,指導為每個圖像塊選擇合適的超分辨率變體。

基于前任的研究,團隊使用多尺度拉普拉斯-高斯金字塔對輸入圖像中的局部亮度對比度 C(f, p) 進行建模,其中 p 是位置,f 是頻率。對比度 Cn(f, p) 經過對比敏感度函數歸一化,并針對感知掩蔽進一步調整,最終得到以恰可察覺差(JND)為單位的值 Ct(f, p)。

對于每個圖像塊和頻率,尋求人眼視覺系統無法檢測到的最大衰減。他們將衰減定義為對比度比值:

意大利研究團隊提出基于人眼感知的自適應超分辨率優化方法  第3張

其中 C_n, C_t 和 C?_n, C?_t 分別是輸入圖像和上采樣圖像的對比度值。為確保衰減不可察覺,考慮以下附加約束:

意大利研究團隊提出基于人眼感知的自適應超分辨率優化方法  第4張

通過代入C_t 和 C?_t 的表達式,并類似地假設掩蔽項在兩種情況下相同,可以推導出:

意大利研究團隊提出基于人眼感知的自適應超分辨率優化方法  第5張

如果考慮對比度金字塔的三個層級,可以將選定空間頻率下的可容忍衰減計算為:

意大利研究團隊提出基于人眼感知的自適應超分辨率優化方法  第6張

注意,t_i 可以直接使用公式 (4) 從輸入圖像近似計算出來(作為 t?_i 的近似值)。接著,對于每個超分辨率網絡分支 j,存儲一個預先計算好的衰減向量 a

j(超分辨率響應),其中向量在圖像數據集上計算得到。圖像塊的最佳分支是其響應 a

j 最能匹配該塊目標衰減 t 的那個分支:

意大利研究團隊提出基于人眼感知的自適應超分辨率優化方法  第7張

其中 t = [t1, t2, t3](對應不同頻率),j 索引候選分支/網絡。

研究人員在兩種設置中展示了利用感知模型優化超分辨率的方法:一是在VDSR中使用提前退出分支,即針對每個圖像塊選擇最優分支以平衡質量和計算量;二是針對每個圖像塊在不同深度的EDSR網絡中進行選擇。

2AFC用戶研究(圖3)表明,由感知加速方法生成的圖像與完整網絡生成的圖像無法區分,證實了感知無損加速的有效性。值得注意的是,感知模型的計算成本不到上采樣所需成本的1%,同時依然能將浮點運算次數(FLOPs)顯著降低:對于×2上采樣,VDSR降低高達50%,EDSR降低高達78%;對于×4上采樣,VDSR降低37%,EDSR降低77%。

意大利研究團隊提出基于人眼感知的自適應超分辨率優化方法  第8張

通過整合諸如StelaCSF等對比敏感度模型,框架實現了用于VR/AR的注視點跟隨超分辨率,僅在感知需要的地方自適應地分配高分辨率(圖4)。

相關論文:Super Resolution for Humans

https://dl.acm.org/doi/pdf/10.1145/3721250.3742985

未來的研究包括:利用時間對比敏感度函數擴展到視頻超分辨率,評估非CNN架構,將感知模型適配到其他圖像/視頻任務(如去噪、插值),以及評估除FLOPs之外的實際運行時性能。