以更小的架構(gòu)提供了顯著的速率節(jié)省,并且可以應(yīng)用于任何球面卷積應(yīng)用
(中國AI網(wǎng) 2025年06月27日)開發(fā)有效的360度圖像壓縮技術(shù)對于虛擬現(xiàn)實(shí)等技術(shù)至關(guān)重要。在一項(xiàng)研究中,德國埃爾朗根-紐倫堡大學(xué),瑞士洛桑聯(lián)邦理工學(xué)院和法國國家信息與自動(dòng)化研究所團(tuán)隊(duì)通過提出球面關(guān)注模塊、殘差塊和空間自回歸上下文模型,推進(jìn)了OSLO技術(shù)。
相關(guān)改進(jìn)在WS-PSNR BD率方面實(shí)現(xiàn)了23.1%的比特率降低。另外,他們引入了一個(gè)用于上采樣的球面轉(zhuǎn)置卷積算子,而它將可訓(xùn)練參數(shù)減少四倍,同時(shí)保持了類似的壓縮性能。因此,總的來說,所提出的方法以更小的架構(gòu)提供了顯著的速率節(jié)省,并且可以應(yīng)用于任何球面卷積應(yīng)用。

虛擬現(xiàn)實(shí)等技術(shù)的不斷進(jìn)步帶來了越來越多的全向內(nèi)容。特別是對于像VR頭顯這樣面向消費(fèi)者的設(shè)備,它們需要高分辨率的圖像以在每個(gè)視角實(shí)現(xiàn)適合的視覺印象。因此,開發(fā)高效的全向圖像壓縮技術(shù)是存儲和傳輸高分辨率全向圖像的必要條件。
在二維圖像和視頻壓縮領(lǐng)域,基于自編碼器的端到端學(xué)習(xí)方法帶來了十分好的壓縮性能。然而,因?yàn)榇嬖诟鞣N表示,卷積神經(jīng)網(wǎng)絡(luò)直接擴(kuò)展到全向圖像并不簡單。一種方法是將球體映射到一個(gè)或多個(gè)平面作為預(yù)處理步驟。最流行的是等矩形投影(ERP)。
由于這種映射不可避免地引入了幾何扭曲,像素間相關(guān)性變得依賴于位置。為了處理ERP的畸變,研究人員引入了一個(gè)緯度相關(guān)的損失函數(shù)和一個(gè)額外的緯度自適應(yīng)尺度網(wǎng)絡(luò)。基于同樣的原因,業(yè)界研究了使用多運(yùn)動(dòng)模型進(jìn)行視頻壓縮。相比之下,有人直接在基于HEALPix采樣的球面表示上定義卷積操作。這個(gè)框架稱為全向圖像的球面學(xué)習(xí)(on -the- sphere Learning for Omnidirectional Images/OSLO)。
與在ERP圖像訓(xùn)練等效的2D模型相比,OSLO增強(qiáng)了卷積神經(jīng)網(wǎng)絡(luò)在全向圖像壓縮和去噪方面的性能。然而,2D圖像壓縮模型的最新進(jìn)展,包括注意力模塊、作為非線性的殘差塊和球面學(xué)習(xí)圖像壓縮的空間上下文模型,尚未集成到OSLO框架中。另外,OSLO只支持周期性像素變換作為解池操作,與其他眾所周知的解池方法相比,這導(dǎo)致參數(shù)數(shù)量增加了四倍。
定義計(jì)算效率高的球面操作具有挑戰(zhàn)性,因?yàn)镠EALPix圖像存儲在矢量中,僅包含有關(guān)每個(gè)像素的直接鄰域的信息。在研究中,德國埃爾朗根-紐倫堡大學(xué),瑞士洛桑聯(lián)邦理工學(xué)院和法國國家信息與自動(dòng)化研究所團(tuán)隊(duì)在OSLO的基礎(chǔ)上提出了一個(gè)更新的球形端到端學(xué)習(xí)圖像壓縮模型,它包含注意模塊,殘差塊,以及空間自回歸上下文模型。
相關(guān)改進(jìn)在WS-PSNR BD率方面實(shí)現(xiàn)了23.1%的比特率降低。另外,他們引入了一個(gè)用于上采樣的球面轉(zhuǎn)置卷積算子,而它將可訓(xùn)練參數(shù)減少四倍,同時(shí)保持了類似的壓縮性能。因此,總的來說,所提出的方法以更小的架構(gòu)提供了顯著的速率節(jié)省,并且可以應(yīng)用于任何球面卷積應(yīng)用。
為了評估模型,他們使用來自SUN360數(shù)據(jù)集的2170張分辨率為9104 × 4552的ERP圖像,并將它們分成1737張訓(xùn)練圖像、10張驗(yàn)證圖像和423張測試圖像,研究人員將ERP圖像重新采樣到HEALPix,分辨率為??side = 2 10。在訓(xùn)練過程中,將大小為256 × 256的隨機(jī)patch以10個(gè)批次輸入模型。在前800個(gè)epoch中,以10?4的固定學(xué)習(xí)率訓(xùn)練了1000個(gè)epoch的模型,并根據(jù)后200個(gè)epoch的驗(yàn)證損失來降低學(xué)習(xí)率。
作為重建質(zhì)量的定量度量,使用加權(quán)球均勻峰值信噪比(WS-PSNR)。相對于PSNR, WS-PSNR更重視大面積像素,因此與主觀質(zhì)量的相關(guān)性更強(qiáng)。球形PSNR (S-PSNR)同樣得到了類似的結(jié)果。

為了評估壓縮性能,圖5中繪制了每個(gè)模型的率失真(RD)曲線。從紅色曲線中看到,模型在BD率方面節(jié)省了23.1%的比特率。然而,可訓(xùn)練參數(shù)的數(shù)量相當(dāng)高,這主要是由于像素變換操作造成。使用轉(zhuǎn)置卷積代替(紅色點(diǎn)線),模型大小減少了3倍以上,同時(shí)在BD率方面提供幾乎相同的23.0%的節(jié)省率。
從綠色曲線中看到,球形注意力模塊和剩余塊將比特率降低了近10%。與完整模型類似,轉(zhuǎn)置卷積(綠色虛線)將模型大小減少了2.6倍,而只導(dǎo)致BD率的輕微下降。對原始的球先驗(yàn)?zāi)P停ㄋ{(lán)色虛線)使用轉(zhuǎn)置卷積,模型大小減少了約4.1倍,所需的比特?cái)?shù)增加了1.3%。盡管轉(zhuǎn)置卷積使比特率提高了一小部分,但與使用像素變換的等效模型相比,所有使用球面轉(zhuǎn)置卷積的模型在更高比特率下都能獲得更好的重建質(zhì)量。
相關(guān)論文:OSLO-IC: On-the-Sphere Learned Omnidirectional Image Compression with Attention Modules and Spatial Context
https://arxiv.org/pdf/2503.13119
總的來說,團(tuán)隊(duì)通過提出球面關(guān)注模塊、殘差塊和空間自回歸上下文模型,推進(jìn)了OSLO技術(shù)。相關(guān)改進(jìn)在WS-PSNR BD率方面實(shí)現(xiàn)了23.1%的比特率降低。另外,他們引入了一個(gè)用于上采樣的球面轉(zhuǎn)置卷積算子,而它將可訓(xùn)練參數(shù)減少四倍,同時(shí)保持了類似的壓縮性能。展望在未來,研究人員的目標(biāo)是通過計(jì)算效率高的通道上下文模型以及不同的模型架構(gòu)來擴(kuò)展OSLO框架。

