開發更直觀、更吸引人、更有效的AI+AR體驗

中國AI網 2025年08月01日)增強現實正在改變我們在物理世界中與虛擬信息交互的方式。通過在現實環境中疊加數字內容,增強現實實現了全新形式的沉浸式和引人入勝的體驗。然而,現有的AR系統往往難以有效地管理AR所呈現的許多交互可能性。在一項研究中,慕尼黑大學達姆施塔特工業大學團隊介紹了人工智能驅動的自適應AR內容放置方法,以根據用戶的移動和環境變化進行動態調整。

通過利用機器學習方法,這樣的系統將智能地管理集成到外部環境的AR投影和固定靜態內容之間的內容分發,實現無縫的UI布局,并可能減少用戶的認知負荷。通過探索人工智能驅動的動態AR內容放置的可能性,研究人員的目標是設想從城市導航和工作場所生產力到沉浸式學習等各個行業的創新和改進的新機會。總的來說,他們概述了開發更直觀、更吸引人、更有效的AI+AR體驗的愿景。

慕尼黑大學團隊研發AI驅動動態AR內容自適應系統  第1張

將AI功能集成到AR技術中為解決空間計算中的關鍵挑戰提供了新的機會,即支持AR內容適應動態用戶和環境。傳統的AR系統通常在用戶視場內使用靜態內容放置或固定定位,限制了它們在動態、真實場景中的潛力。

近來,有研究探索了應對這一挑戰的各種方法,并開始使用大型語言模型LLM來優化基于上下文的混合現實界面。另外,AR中的UI定位同樣取得了進步,研究人員探索了不同環境下用戶對視頻通話窗口的偏好,不同AR內容錨定在用戶身體周圍的雙任務行走場景中的用戶表現,以及靜態、動態和“自我實體”之間的UI轉換技術。

有的研究同時確定了人工智能增強AR的領域,包括模式檢測和通過神經網絡和自然語言處理改善體驗。盡管相關例子顯示了AR界面在各個方面的進展,但它通常僅限于特定的場景。

為了確保AR成為我們主要的交互媒介,它的界面必須適用于各種日常情況,包括室內和室外,行走或站立時,獨自一人時或在多人空間。為了彌合解決方案之間的差距,并創建更通用、適應性更強的界面,以與動態環境和用戶無縫集成,慕尼黑大學和達姆施塔特工業大學團隊提出了一個用于動態AR內容放置的人工智能驅動系統,以適應不同的變化。

這種方法管理環境投影和頭戴式顯示器之間的內容分發,提供更細致入微和上下文感知的放置。在研究和設計日常場景中用戶的AR交互時,我們可以根據用戶和環境的靜態或動態特征將用例分離成一個矩陣,其中包含四個不同的場景,如圖1所示。

在每個給定的場景中,AR內容可以是靜態的、動態的,或可以結合這兩種特征的AR元素。因為用戶視場中的視覺變化,適配UI元素可能是必要的。相關變化主要是空間變化的結果——要么是用戶自己(通過頭部旋轉、運動等),要么是環境元素(汽車、人等)。

靜態用戶、靜態環境用戶和環境都是固定的,例如在檢查靜態AR模型的場景中。靜態內容支持一致性信息傳遞很重要的應用程序,例如文本標簽或訓練中的固定指導顯示。如果使用動態內容,可以引入自適應層進行探索,但當精度和穩定性優先考慮時,可能并不總是必要的。靜態用戶、動態環境靜態用戶在不斷變化的環境中進行交互,例如在公共交通工具中查看AR內容。靜態內容對于持久通知或提供一般信息的內容(如路線圖或廣告)是有益的。然而,動態內容可以通過響應人群密度或照明條件等環境變化來增強情境相關性。

動態用戶、靜態環境移動用戶在穩定的環境中與固定的AR內容進行交互,例如博物館或機場的導航路點。靜態內容,如方向箭頭或標簽,依然可以有效地引導用戶。挑戰在于保持跨不同視角的可見性。動態內容可以提供自適應界面,例如重新定位導航提示或根據用戶位置或移動模式動態調整信息顯示。

動態用戶、動態環境用戶和環境都是動態的,比如在繁忙的空間用AR購物。靜態內容,如價格標簽或簡單通知,對于持久信息依然十分有用。然而,隨著環境變得更加混亂,其有效性可能會下降。交互式購物助手或基于上下文的服務等應用程序強調了動態內容如何使用戶體驗個性化,無需完全依賴于環境適應。圖1中的每個場景都有獨特的挑戰。但在相關組合中,具有動態AR內容的動態環境中的動態用戶是研究最少和最具挑戰性的領域。

這里的核心問題是:我們如何設計一個能夠與動態環境無縫集成并提供連貫且引人入勝的用戶體驗的AR系統?具體來說,哪些內容應該作為增強環境的一部分顯示,應該在哪里以及如何疊加,哪些內容應該在用戶的視場內保持靜態?對于具有動態AR內容的動態環境中的動態用戶這一最具挑戰性的情況,存在多種解決方案可以集成到AI驅動型AR系統中。系統可以為用戶創建上下文內容,利用計算機視覺進行場景理解,并通過LLM生成上下文信息和3D內容。

傳統的AR內容放置通常側重于用戶視角或靜態環境元素。相比之下,人工智能驅動的AR系統具有環境意識,會考慮用戶的運動和周圍環境的變化,從而創建一個更全面、更靈敏的系統。與通常依賴于靜態內容放置或用戶視場內固定位置的傳統方法不同,團隊設想的系統可以根據實時用戶移動和環境變化動態地調整內容放置。它采用多模態方法來智能地管理環境投影和頭顯可視化之間的內容分發。

另外,強化學習算法通過考慮用戶參與度和任務性能指標來優化內容放置,而計算機視覺模型則識別環境中合適的投影表面。自然語言處理技術則有助于確定內容相關性的優先級,確保信息以最合適的格式和位置呈現。通過在環境和個人頭顯之間分配內容,這種自適應方法有望顯著減少認知負荷。例如,時間關鍵信息可能會出現在頭顯,而上下文細節則會投影到附近的表面。

相關論文:A Vision for AI-Driven Adaptation of Dynamic AR Content to Users and Environments

https://arxiv.org/pdf/2504.16562

與傳統的單一顯示方法不同,這種動態分布策略在保持信息可訪問性的同時,最大限度地減少了視覺混亂。其結果是一個更直觀,認知要求更低的AR體驗,適應用戶需求和環境限制。AI驅動的AR系統整合了對上下文的更深入理解,在放置內容時可能會考慮用戶意圖、環境約束和任務相關性等因素。傳統方法往往缺乏這種程度的上下文意識。基于人工智能的AR系統概念旨在盡可能將數字內容與物理空間無縫集成,從而有可能改變用戶在日常生活中與信息交互的方式。這超越了傳統AR內容放置的分隔方法。總的來說,這種基于人工智能的內容放置方法可能是為大多數日常AR用例創造更直觀、自適應和以用戶為中心的AR體驗的重大進步。