查看引用/信息源請點擊:中國AI網

實現(xiàn)適用于虛擬現(xiàn)實等下游應用的實時注視點渲染視頻

中國AI網 2025年09月22日)對更小型化攝像頭的追求推動了對計算成像系統(tǒng)的探索,包括降低光學復雜度,例如減少鏡片數(shù)量。但遺憾的是,這種簡化的光學系統(tǒng)通常存在嚴重的像差,尤其是在離軸區(qū)域,僅通過軟件難以完全校正。

在一項研究中,沙特阿卜杜拉國王科技大學團隊介紹了一種新型成像系統(tǒng)Fovea Stacking。它利用新興的動態(tài)光學元件,即可變形相位板(DPPs),來在圖像傳感器的任何位置進行局部像差校正。通過可微分光學模型優(yōu)化 DPP 的形變,可以局部校正離軸像差,從而在注視點(類似于眼睛的中央凹)產生一個具有更高清晰度的焦點圖像。將多個這樣的焦點圖像(每個具有不同的注視點)堆疊起來,就能得到一個無像差的合成圖像。

為了在成像預算限制下高效覆蓋整個視場,團隊提出了 DPP 形變的聯(lián)合優(yōu)化方法。鑒于 DPP 器件的非線性行為,引入一個基于神經網絡的控制模型,以改善仿真與硬件性能之間的對齊度。

團隊進一步證明,在擴展景深成像方面,F(xiàn)ovea Stacking在圖像質量上優(yōu)于傳統(tǒng)的焦點堆疊。通過集成物體檢測或眼球追蹤技術,系統(tǒng)可以動態(tài)調整鏡頭以追蹤感興趣的目標,從而實現(xiàn)適用于虛擬現(xiàn)實等下游應用的實時注視點渲染視頻。

研究團隊利用可變形相位板實現(xiàn)動態(tài)局部像差校正的焦點堆疊成像系統(tǒng)  第1張

為了實現(xiàn)整個視場的高圖像質量,傳統(tǒng)的成像系統(tǒng)使用復雜的光學鏡頭系統(tǒng),經過精心設計以校正軸上和離軸的光學像差。為了小型化此類設計,人們已經取得了巨大進步,從而在小型設備中實現(xiàn)了令人印象深刻的成像效果。遺憾的是,基于現(xiàn)有的設計理念和折射透鏡等光學元件,進一步的小型化正接近物理極限。

新型動態(tài)可調光學元件的出現(xiàn)帶來了新的機遇,它們促成了全新的設計范式。這類元件中最著名的可能是液體可調透鏡。所述技術最初笨重且昂貴,但最近已變得足夠小巧和經濟。一種更新型的動態(tài)可調光學元件是可變形相位板(DPP)。

與液體可調透鏡類似,DPP 允許動態(tài)控制液體表面形狀以實現(xiàn)光學目的。然而,DPP 不僅能夠控制全局透鏡曲率,而且能精細控制局部表面幾何形狀,從而為自適應光學系統(tǒng)中使用的反射式變形鏡提供了一種透射式替代方案。

在這項研究中,沙特阿卜杜拉國王科技大學團隊利用 DPP 在緊湊光學系統(tǒng)中動態(tài)、局部地塑造光學波前的能力,展示了一種新型的焦點渲染成像系統(tǒng)(參見圖 1)。

所述光學設計由一個高度像差的消色差雙合透鏡和一個可用于像差校正的 DPP 組合而成。這個光學系統(tǒng)缺乏像傳統(tǒng)攝像頭鏡頭那樣同時校正圖像中所有位置的所有像差的復雜性,但是,它能夠校正局部感興趣區(qū)域(中央凹)的像差,并在該區(qū)域產生具有優(yōu)異保真度的圖像。另外,通過對 DPP 的動態(tài)控制,中央凹區(qū)域可以放置在圖像平面的任何位置,而無需機械運動。堆疊多個這樣的焦點圖像,可用于重建無像差、高保真度的圖像(參見圖 1d)。

團隊通過實驗在三個應用中展示了硬件原型的能力:通過遠距離焦點堆棧進行像差校正成像、通過跨不同深度的焦點堆棧進行擴展景深成像,以及在平滑追蹤運動過程中的焦點渲染物體跟蹤。

對于超焦距以外的成像,通過旋轉變焦套筒重新定位傳感器平面。隨后,在 60 米距離處聯(lián)合優(yōu)化五個相位圖案并用于圖像捕獲。為了進行比較,僅使用離焦作為可變的澤尼克多項式項,以優(yōu)化具有相同圖像數(shù)量的焦點堆棧。如圖 13 所示,單張圖像受到顯著離軸像差的影響(圖 13a)。

研究團隊利用可變形相位板實現(xiàn)動態(tài)局部像差校正的焦點堆疊成像系統(tǒng)  第2張

盡管焦點堆疊可以部分補償場曲,但不能完全校正這些像差(圖 13b)。Fovea Stacking提供了更好的像差校正,在此比較中,精細結構的分辨率顯著提高,文本可讀性增強(圖 13c)。圖 14 比較了基于清晰度的融合(第三列)與使用預優(yōu)化掩模的融合(最后一列)。真實的硬件缺陷在圖像邊界處引入了輕微的偽影(在單詞“the,” “increasing,” 和 “reducing.” 中最明顯)。相比之下,基于清晰度的融合通過在邊界處提供更平滑的過渡來減輕偽影。每張圖像的清晰度圖與其預優(yōu)化掩模非常吻合,使其成為可靠的融合指標。

研究團隊利用可變形相位板實現(xiàn)動態(tài)局部像差校正的焦點堆疊成像系統(tǒng)  第3張

為了使用Fovea Stacking實現(xiàn)擴展景深(圖 15),在視差空間中介于 535 至 835 毫米之間均勻采樣了三個平面,每個平面優(yōu)化五個相位,總共 15 張圖像。四個物體放置在不同深度,其中兩個汽車模型以一定角度放置以增強深度變化。為了與焦點堆疊方法進行公平比較,團隊優(yōu)化了 15 個相位,但僅在澤尼克多項式中改變離焦項。

研究團隊利用可變形相位板實現(xiàn)動態(tài)局部像差校正的焦點堆疊成像系統(tǒng)  第4張

圖 16 顯示,單次捕獲(圖 16a)聚焦在大約 652mm 處,受到顯著的離軸和離焦像差的影響。盡管焦點堆疊(圖 16b)減輕了離焦像差,但離軸像差仍然限制了周邊區(qū)域的分辨率。Fovea Stacking(圖 16c)校正了兩種像差,并保留了更精細的細節(jié)。對于擴展景深應用,使用預優(yōu)化掩模進行融合是不合適的,因為物體深度任意變化。

研究團隊利用可變形相位板實現(xiàn)動態(tài)局部像差校正的焦點堆疊成像系統(tǒng)  第5張

圖 17 將融合方法與拉普拉斯金字塔、IFCNN、MGDN和 DEReD進行了比較。像 IFCNN 和 MGDN 這樣的成對融合網絡在順序融合整個圖像堆棧時會丟失清晰度。盡管 DEReD 同時處理整個堆棧,但可以觀察到它過擬合其訓練數(shù)據(jù),并根據(jù)每張圖像的聚焦深度產生色調變化。

盡管傳統(tǒng)的拉普拉斯金字塔方法實現(xiàn)了相當?shù)那逦龋谖谋究勺x性和條形碼分辨率方面效果較差。他們將基于神經網絡的方法質量較低歸因于:與它們原本適用的、光學系統(tǒng)通常已良好校正離軸像差的焦點堆疊領域相比,焦點成像引入了不同類型的點擴散函數(shù)。相比之下,傳統(tǒng)的基于清晰度和基于拉普拉斯金字塔的方法對模糊核較不敏感,從而產生了更好的融合質量。

總的來說,團隊提出了一種新穎的成像方法,利用可變形相位板(DPP)在緊湊型光學系統(tǒng)內進行動態(tài)、局部的像差校正。所提出方法引入了Fovea Stacking)作為攝像頭系統(tǒng)的新范式:通過使用可微分光學模型優(yōu)化 DPP 波前控制圖案,生成跨不同深度的區(qū)域校正圖像,而這些圖像可以堆疊形成高質量、像差大幅減少的合成圖像。

為了以最少的掃視運動高效覆蓋視場,團隊提出了一個 DPP 形變圖案的聯(lián)合優(yōu)化框架,使得僅需 3-5 張堆疊圖像即可實現(xiàn)完全的像差校正。為了解決 DPP 的非線性行為(尤其是對于較大的控制信號),他們開發(fā)了一個基于神經網絡的控制模型,將所需的波前映射到驅動模式,從而彌合了仿真與實際性能之間的差距。

實驗證明了該系統(tǒng)在像差校正成像和擴展景深成像方面的能力。與焦點調整(通過移動鏡頭或使用液體可調透鏡)相比,DPP 的動態(tài)自由形狀變形為增強各種應用的圖像質量提供了卓越的靈活性。分析證明了所提出的基于清晰度的融合方法的魯棒性,而基于神經網絡的方法無法適應焦點堆棧中的模糊核。通過將焦點渲染成像與物體檢測或眼球追蹤相結合,團隊實現(xiàn)了對運動目標的平滑追蹤,動態(tài)調整成像焦點以將目標保持在中央凹區(qū)域內,這為虛擬現(xiàn)實等應用開辟了新的可能性。

相關論文:Fovea Stacking: Imaging with Dynamic Localized Aberration Correction

https://arxiv.org/pdf/2506.00716

上述貢獻在一個功能齊全的硬件原型上得到了驗證:原型足夠緊湊,可在受控實驗室環(huán)境之外使用。隨著 DPP 器件向更小型化發(fā)展,這種方法可能使其能夠集成到移動設備中。團隊相信這項研究突出了不斷發(fā)展的動態(tài)可調光學元件如何幫助簡化光學系統(tǒng),并重新定義未來成像設備中光學與計算之間的界限。