為實時照明鋪平了道路
(中國AI網 2025年07月29日)從單目視頻中創(chuàng)建可照明和可動畫的人類化身是一個新興的研究課題,具有廣泛的應用,例如虛擬現(xiàn)實。以前的研究利用神經場和基于物理的渲染(PBR)來估計人類化身的幾何形狀和分離外觀屬性。然而,相關方法的一個缺點是由于昂貴的Monte Carlo光追而導致渲染速度慢。
為了解決這一問題,英國牛津大學和瑞士蘇黎世聯(lián)邦理工學院團隊提出將隱式神經場(teacher)的知識提取為顯式二維高斯飛濺(student)表示,以利用高斯飛濺的快速光柵化特性。
為了避免光追,對PBR外觀采用分割和近似。研究人員同時提出了新的局部環(huán)境遮擋探測用于陰影計算。陰影預測是通過每像素查詢一次探針來實現(xiàn),而這為虛擬角色的實時照明鋪平了道路。相關技術結合起來可以提供高質量的重照明結果與逼真的陰影效果。
實驗表明,所提出的student模型與teacher模型取得了相當甚至更好的重照明結果,而在推理時間快了370倍,達到67 FPS的渲染速度。

在計算機視覺和計算機圖形學領域,重建具有可照明外觀的可動畫人物是一個新興的研究課題。它有廣泛的應用,如虛擬現(xiàn)實。傳統(tǒng)的方法需要密集的多視圖捕獲系統(tǒng),但這是昂貴的,不可擴展的。為了實現(xiàn)可照明的外觀,你同時需要控制照明條件,這進一步使捕獲過程復雜化。總的來說,傳統(tǒng)的方法由于其高成本和復雜性而無法為公眾所接受。
近年來,研究人員提出了使用神經場和人體先驗模型來創(chuàng)建可動畫人類化身的方法。神經場的魯棒性允許從單目視頻中估計幾何和外觀屬性。然而,相關方法的一個缺點是由于底層神經輻射場(NeRF)表示和基于物理的渲染(PBR)的使用而導致渲染速度慢。
為了實現(xiàn)PBR,現(xiàn)有的方法采用Monte Carlo光追,這種方法是準確的,但通常需要追蹤大量的二次射線來獲得高質量的PBR結果,而典型的NeRF模型只需要追蹤單個主射線來渲染一個像素。所以,即便使用NeRF的各種加速技術,渲染最先進的可照明的人類化身依然效率低下,渲染一幀需要幾秒鐘。
隨著3DGS和2DGS的出現(xiàn)和發(fā)展,大量的研究表明,高斯飛濺結合人體先驗模型可以實現(xiàn)對人體化身的實時渲染。然而,相關工作大多集中在新穎性合成任務上,沒有考慮到可照明的外觀。
將高斯飛濺擴展到可重照明的人類頭像有兩個主要挑戰(zhàn):首先,與基于NeRF的方法相比,vanilla 3DGS不能產生高質量的幾何細節(jié),而這一點對于重照明至關重要;第二,Monte Carlo估計的PBR會產生顯著的計算開銷,這抵消了高斯飛濺技術實時渲染的優(yōu)勢。
最近的方法通過使用高效的預訓練/緩存可見性模型來避免昂貴的光追。然而,它們依然需要對每個像素的可見性模型進行多次查詢,從而影響了實時性能。
為了解決第一個挑戰(zhàn),英國牛津大學和瑞士蘇黎世聯(lián)邦理工學院團隊使用了最近提出的2DGS表示,因為與普通3DGS相比,它可以實現(xiàn)更好的幾何重建。研究人員注意到,在訓練過程中,基于高斯飛濺的方法比基于NeRF的方法魯棒性差,特別是當輸入視圖的數(shù)量有限時。
所以,他們建議將正常預測從預訓練的基于神經場的teacher模型提取到明確的基于2DGS的student模型,以實現(xiàn)高質量的幾何重建。
為了解決第二個挑戰(zhàn),對鏡面外觀使用分割和近似。研究人員同時引入了新的局部環(huán)境遮擋探針,以實現(xiàn)關節(jié)體的有效陰影計算。它通過對探測的單個查詢實現(xiàn)陰影預測,而這對最終的實時渲染性能至關重要。
最后,與基于光追的PBR相比,分割和近似在物理上不太可信。因此,利用基于光追的teacher模型,在訓練過程中進一步規(guī)范student模型的材質預測。
相關技術結合在一起,使得能夠實現(xiàn)高質量的重照明結果與逼真的陰影效果,同時避免了PBR中耗時的光追,從而在任意新穎的姿勢下實現(xiàn)實時重照明(67 FPS)。

定性結果如圖3所示。R4D未能產生合理的結果,由于其無法泛化到新的姿勢。因為使用了iNGP, IA往往會在特定區(qū)域(紅色邊界框)產生高頻噪點。另外,與基于表面的student模型相比,基于體積散射的teacher模型可能會在表面內采樣二次射線,從而導致更暗的陰影效果。同時,IA的有限樣本計數(shù)可能導致噪點或錯誤估計材質。圖3中的橙色邊界框證實了這一點。

圖4展示了真實數(shù)據(jù)集的結果。同樣,IA受到iNGP和Monte Carlo估計引起的噪點影響,導致面部重照明結果模糊和有噪點。相反,由于2DGS,團隊提出的模型產生了更平滑的幾何形狀,而基于分裂求和的外觀模型不會受到Monte Carlo估計中常見的噪點影響。

如表3所示,知識蒸餾作為一種有效的正則化項,極大地提高了重照明質量。圖5的定性結果證實了這一點,僅優(yōu)化顯式表示本身不能產生令人滿意的幾何形狀,容易陷入局部最優(yōu),導致重照明結果有噪點。另外,如表3第二行所示,從采樣姿態(tài)呈現(xiàn)的附加蒸餾化身成功地將teacher隱式模型的歸納偏差提煉為顯式模型,使student模型能夠很好地泛化到分布外的新姿態(tài)。圖7證實了這一點。
另外,如果我們關閉部分遮擋探針,重照明質量會下降,如表3第二行所定量表示。圖6中的橙色邊界框作為視覺證據(jù),證明了所提出的探針的必要性。遮擋探針捕獲前臂和腿部上下部分之間的陰影,從而產生與ground truth圖像更一致的重照明結果。
相關論文:DNF-Avatar: Distilling Neural Fields for Real-time Animatable Avatar Relighting
https://arxiv.org/pdf/2504.10486
總的來說,團隊提出的DNF-Avatar可以從單目視頻中重建可照明的人類化身,支持實時渲染。研究人員將人類表示為2DGS,并采用近似的PBR來計算陰影顏色。實驗證明了新的局部環(huán)境遮擋探針是實現(xiàn)具有實時性能的逼真陰影的曲線。
他們同時證明了有必要用基于光追的teacher模型來提煉和規(guī)范模型,以獲得高質量的結果。在實驗中,模型達到了與teacher模型相當?shù)慕Y果,同時在推理上快了數(shù)百倍,在新環(huán)境照明和新姿勢下實現(xiàn)了67幀/秒的渲染速度。

