執行各種基于全景圖像的3D感知任務
(中國AI網 2025年07月14日)在AR和MR技術中,將數字內容疊加到現實世界空間需要人工智能系統準確地解釋和表示諸如墻壁和家具位置以及物體之間的距離等信息。傳統上,達到這種程度的理解需要從不同角度獲取多個圖像或昂貴的設備,如深度傳感器。
針對這個問題,韓國蔚山科學技術院的研究人員推出了一種能夠同時從全景圖像中提取空間結構和內部對象細節,且精度非常高的人工智能模型HUSH。簡單來說,HUSH通過對每個任務使用與任務相關的幾何對齊球面諧波基函數來執行各種基于全景圖像的3D感知任務。

盡管全景圖像可以在一次拍攝中捕獲到廣闊的場景,但它們的球面畸變令精確分析變得具有挑戰性。傳統方法試圖通過分割圖像和重復應用標準人工智能模型來緩解相關問題,但這通常會導致信息丟失或計算效率低下。
為了解決所述問題,研究小組采用了球面諧波(SH),一種精確模擬全景圖像球形特性的數學技術。相關解決方案將場景分解為頻率分量:低頻分量有效地表示天花板和地板等寬闊平坦的區域,而高頻分量則捕獲家具和物體等詳細結構,從而提高準確性。
研究人員解釋道:“球面諧波通常用于虛擬視圖合成,用于表示物體或場景的顏色和照明。認識到它們在球面上分析數據的能力,我們首次創新地將SH應用于基于全景圖像的空間重建。”
為了實現這一點,首先估計SH系數,允許對每個場景特定的SH基礎進行自適應配置。然后,HUSH采用分層關注模塊,它使用SH base作為查詢,通過將自適應場景的SH base與圖像特征相結合,生成全面的場景特征。另外,團隊引入了一個SH base索引模塊,自適應地強調相關的SH base以產生與任務相關的特征,從而增強了HUSH在不同場景理解任務中的通用性。
最后,通過將場景特征與task-specific head的任務相關特征相結合,研究人員執行了各種場景理解任務,包括深度,表面法線和房間布局估計。

與現有的3D場景重建模型相比,HUSH模型在深度預測和其他空間理解任務方面表現出非常高的準確性。值得注意的是,它可以從一張圖像中推斷出多個空間細節,并提供高性能和計算效率。
相關論文:HUSH: Holistic Panoramic 3D Scene Understanding using Spherical Harmonics
https://arxiv.org/abs/%3CARXIV%20PAPER%20ID%3E
團隊強調:“這項技術在現實世界中具有廣泛的應用潛力,例如AR和MR環境,或者創建僅通過一張圖像就可以實現用戶交互的沉浸式媒體。”

