查看引用/信息源請點擊:中國AI網

將第三人稱視角轉換為第一人稱視角

中國AI網 2025年11月06日)自中心視覺(Egocentric vision)對于視覺理解至關重要,特別是在捕獲操作任務所需的詳細手部-物體交互方面。將第三人稱視角轉換為第一人稱視角,能極大地惠及增強現實和虛擬現實等應用。然而,當前的外中心(exocentric)到自中心(egocentric)視角轉換方法受限于其對2D線索、同步多視角設置以及不現實假設(例如在推理過程中需要初始自中心幀和相對camera姿態)的依賴。

為了克服所述挑戰,LG,韓國科學技術院,英國牛津大學團隊入了EgoWorld。這個新穎的兩階段框架能夠從豐富的外中心觀察(包括投影點云、3D手部姿態和文本描述)中重建自中心視角。所提出方法從估計的外中心深度圖重建點云,將其重投影到自中心視角,然后應用基于擴散模型的修復技術來生成密集、語義連貫的自中心圖像。在H2O和TACO數據集上的評估表明,EgoWorld實現了最先進的性能,并展示了對新物體、動作、場景和主體的強大泛化能力。另外,即使在未標記的真實世界示例上,EgoWorld都顯示出有希望的結果。

EgoWorld框架實現從第三人稱視角到第一人稱視角的轉換  第1張

自中心視覺在推進人類和智能系統的視覺理解方面扮演著關鍵角色。自中心視角對于捕獲詳細的手部-物體交互特別有價值,并在烹飪、組裝或演奏樂器等技能密集型任務中至關重要。然而,大多數現有資源是從第三人稱視角錄制,這主要是由于頭戴式攝像頭和可穿戴錄制設備的可用性有限。因此,從外中心輸入生成或預測自中心圖像的能力,對于增強現實和虛擬現實等應用具有重大潛力。

另外,這種轉換能力解鎖了開發強大的、以用戶為中心的世界模型,可捕獲大規模實時感知、規劃和交互所必需的空間和時間細節。盡管外中心到自中心的視角轉換前景廣闊,但它依然是計算機視覺中一個特別困難的挑戰。主要障礙源于第三人稱和第一人稱視角之間巨大的視覺和幾何差異。

自中心視角側重于手部和物體,具有精確操作所需的精細細節,而外中心視角提供了更廣泛的背景和運動學線索,但缺乏對這些復雜交互的強調。由于遮擋、視野受限以及不同視角間的外觀變化等因素,橋接這些視角本質上是欠約束的,無法僅通過幾何對齊來解決。例如,像書本內頁這樣的元素在外中心視角中可能完全被遮擋,但仍然需要在自中心輸出中進行真實推斷。同時,在外中心視角中不可見的自中心視角的背景細節重建是一項不簡單的任務。

最近,擴散模型的顯著成就為將生成技術應用于外中心到自中心視角轉換任務開辟了新的可能性。然而,許多現有方法依賴于限制性的輸入條件,例如多視圖圖像、已知的相對camera姿態或參考自中心幀以生成后續幀,這使得它們在只有單視圖圖像可用的場景中不實用。

更近期的Exo2Ego嘗試從單個外中心圖像生成自中心視圖。然而,它在很大程度上依賴于準確的2D手部布局預測來進行結構轉換,這在遮擋、視角模糊或雜亂環境的情況下可能不可靠。另外,它難以泛化到新環境和物體,常常過擬合訓練數據集。總體而言,當前方法缺乏對外中心觀察的詳細理解,而這對于從第一人稱視角合成精確且真實的手部-物體交互是必要的。

為了應對當前方法的局限性,LG,韓國科學技術院,英國牛津大學團隊提出了EgoWorld。這個新穎的框架利用豐富的外中心觀察將外中心視圖轉換為自中心視圖,如圖1所示。所提出方法采用兩階段流程來重建自中心視圖:(1) 從外中心視圖提取多樣化的觀察,包括投影點云、3D手部姿態和文本描述;(2) 基于這些提取的線索重建自中心視圖。

在第一階段,通過將輸入的外中心RGB圖像與經過尺度對齊的估計外中心深度圖相結合,并使用3D外中心手部姿態進行空間校準,來構建一個點云。然后,使用從兩個視角預測的3D手部姿態計算出的平移矩陣,將該點云變換到自中心視角。點云投影后,獲得一個稀疏的自中心圖像,隨后使用基于擴散的模型將其重建為密集、高質量的自中心圖像。

為了進一步增強手部-物體重建的語義對齊和視覺保真度,在重建過程中加入了預測的外中心文本描述和估計的自中心手部姿態。研究人員通過在H2O和 TACO數據集(它們提供了標注良好的外中心和自中心視頻對)上進行大量實驗來評估EgoWorld的有效性。所提出方法在此基準測試中實現了最先進的性能。因此,得益于其端到端的設計,EgoWorld在各種場景(包括未見過的物體、動作、場景和主體)中展示了強大的泛化能力。同時,團隊在未標記的真實世界示例上進行了測試,而EgoWorld顯示出強大的in-the-wild泛化能力,這意味著EgoWorld可以擴展到現實世界的用例中。

為了將EgoWorld與相關工作進行比較,考慮了幾種最先進的方法:

pix2pixHD,一種單視圖圖像到圖像轉換模型;

pixelNeRF ,一種可泛化的神經渲染方法,通過將像素對齊特征與NeRF風格的體積渲染相結合,從一個或幾個圖像合成新視圖;

CFLD,一種coarse-to-fine的latent擴散框架,在生成過程的不同階段解耦姿態和外觀信息。

基于在H2O上針對4個未見場景進行的實驗,所提出方法在所有指標上均優于基線,達到了最先進的性能。如表1所示,pix2pixHD和pixelNeRF在所有場景中表現均較差。CFLD基于給定的手部姿態圖生成視圖感知的人物圖像合成,在視圖變化下表現出比pix2pixHD和pixelNeRF更強的性能。然而,其能力主要局限于轉換手部區域,在重建未見區域(如物體和場景)時表現不佳。相比之下,EgoWorld成功地從外中心視角重建信息,并以在自中心視角中連貫自然的方式呈現,在所有未見場景的所有指標上均優于最先進的方法。

EgoWorld框架實現從第三人稱視角到第一人稱視角的轉換  第2張

具體來說,在未見物體場景中,與CFLD相比,EgoWorld在FID、PSNR、SSIM和LPIPS上分別顯示出約30.67%、16.84%、10.66%和23.42%的顯著性能提升。在未見動作場景中,其提升分別約為34.68%、9.78%、5.30%和17.70%。在未見場景中,其提升分別約為23.04%、6.37%、9.77%和4.71%。在未見主體場景中,其提升分別約為25.42%、15.30%、13.12%和1.29%。特別是,顯著的FID改進歸因于模型生成的圖像更接近ground-truth,尤其是在占據圖像大部分區域的背景區域。

EgoWorld框架實現從第三人稱視角到第一人稱視角的轉換  第3張

相比之下,基線模型生成的背景常常與真實情況顯著不同。如圖3所示,pix2pixHD生成的自中心圖像帶有明顯噪點,而pixelNeRF生成的輸出模糊,缺乏精細細節。依賴于基于標簽圖的圖像到圖像轉換的pix2pixHD似乎不適合解決外中心到自中心的視角轉換問題。類似地,pixelNeRF是為從多個輸入視圖進行新視圖合成而設計的,使其不太適合單視圖到單視圖的轉換任務。相比之下,CFLD能有效重建手部姿態,但無法轉換關于物體和場景的詳細信息,常常導致不真實的物體或完全無關的背景。

EgoWorld則有效利用了來自外中心視角的多樣化信息,包括姿態圖、文本描述和稀疏地圖,即使在涉及物體和場景等復雜元素的具有挑戰性的未見場景中,都能實現穩健的性能。另外如圖4所示,EgoWorld即使在包含比H2O更多樣物體和動作的TACO數據集上也表現出強大的泛化性能。與難以重建手部區域以外信息的CFLD不同,EgoWorld顯示出卓越的能力,不僅能恢復手部,還能恢復交互的物體和周圍場景。這些結果證實了EgoWorld能夠在多樣領域提供穩健的性能。更多的比較結果將在附錄中討論。

為了評估在未標記真實世界示例上的in the wild泛化能力,在EgoWorld上與一個最先進的基線模型進行了實驗。他們采集了人們用手與任意物體交互的in the wild圖像。請注意,團隊僅依賴于使用智能手機(iPhone 13 Pro)捕獲的單個RGB圖像,并應用如圖2所示的完整流程。除了這個單一的外中心圖像外,沒有使用任何額外信息。研究人員使用在H2O的未見動作場景上訓練的模型的預訓練權重,并選擇CFLD作為基線,因為它在主要實驗中顯著優于其他方法。

EgoWorld框架實現從第三人稱視角到第一人稱視角的轉換  第4張

如圖5所示,CFLD生成的自中心圖像看起來不自然,過度偏向于H2O中的訓練圖像,并且與新的交互場景不一致。相比之下,EgoWorld通過有效利用稀疏地圖,生成了逼真、自然的自中心視圖,在未見和真實世界設置中展示了強大的泛化能力。這些結果突顯了EgoWorld在野外場景中的魯棒性,并且通過在多樣化數據集上進行進一步訓練,我們相信它具有強大的實際應用潛力。

EgoWorld框架實現從第三人稱視角到第一人稱視角的轉換  第5張

為了驗證每種模態的貢獻,團隊進行了消融研究。如表2所示,當同時提供姿態和文本信息時,所有指標均達到最佳性能。值得注意的是,如圖6所示,缺少文本會導致對未見物體的錯誤重建。相比之下,當文本可用時,從外中心圖像預測的文本物體信息被有效地反映在自中心視圖重建中,從而產生更合理的輸出。另外,手部姿態信息的存在使得EgoWorld能夠生成更接近ground-truth的手部配置。這些驗證了EgoWorld在同時利用姿態和文本觀察時表現最佳。

由于自中心視圖重建與圖像補全任務非常相似,團隊將所提出方法與最先進的圖像補全主干網絡進行了比較,例如MAE、MAT和LDM。具體來說,MAE專門用于基于掩碼的圖像編碼,使其能有效填充缺失像素區域。MAT是一種基于Transformer的模型,擅長通過長程上下文建模恢復大的缺失區域。LDM作為EgoWorld的基線,其不同之處在于能夠以文本和姿態等多種模態為條件。

EgoWorld框架實現從第三人稱視角到第一人稱視角的轉換  第6張

如圖7所示,團隊基于LDM的方法以比其他方法更自然和高質量的方式重建自中心視圖圖像。盡管原始MAT模型在填充缺失區域方面表現良好,但它常常難以與周圍內容保持一致。例如,可以注意到桌子顏色的細微差異。為了解決這個問題,他們開發了一個改進版的MAT,使用隨機塊掩碼和恢復。然而,這種方法往往無法保持詳細局部交互(如手部-物體交互)的完整性。相比之下,基于LDM的方法通過在潛在空間中添加和去除噪點進行操作,不僅在局部區域實現了連貫的恢復,而且還保持了與現有區域的一致性。如表3所示,所提出方法在所有評估指標上均定量地優于所有其他方法。因此,基于這些結果,采用LDM作為EgoWorld的主干網絡。

相關論文:EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

https://arxiv.org/pdf/2506.17896

總的來說,團隊提出的EgoWorld是一個新穎的框架,它可以利用豐富的多模態外中心線索將外中心觀察轉換為自中心視圖。這個兩階段方法首先提取外中心觀察(如投影點云、3D手部姿態和文本描述),然后通過一個以姿態和文本為條件的擴散模型,從稀疏的自中心地圖生成真實的自中心圖像。在H2O和TACO基準測試上進行的大量實驗驗證了EgoWorld的有效性和優越性。在各種具有挑戰性的場景中,包括未見過的物體、動作、場景和主體,它在所有指標上始終優于現有基線。另外,與最先進技術相比,EgoWorld在未標記的真實世界樣本上顯示出強大的泛化能力,這意味著EgoWorld足以擴展到野外場景。這些結果證明了EgoWorld作為一種從外中心輸入進行自中心視圖合成的強大且多功能的解決方案的潛力,為跨視圖理解和生成的未來研究鋪平了道路。

當然,雖然有效,但EgoWorld依賴于準確的3D手部姿態和深度估計,在遮擋或噪點下可能會性能下降。它在處理稀有物體類別或模糊姿態配置時可能會遇到困難。社會效益包括在輔助技術和AR中的應用,但風險涉及潛在的隱私濫用。未來的研究可以專注于提高模型在具有挑戰性的視覺條件下的魯棒性,整合視頻序列中的時間信息以實現更一致的重建,以及將框架擴展到多人或多物體交互。