人-物交互合成

中國AI網(wǎng) 2025年07月04日)人-物交互(HOI)合成對于為虛擬現(xiàn)實等應(yīng)用程序創(chuàng)建沉浸式和逼真的體驗至關(guān)重要?,F(xiàn)有的方法通常依賴于簡化的對象表示,例如對象的質(zhì)心或離人最近的點,以實現(xiàn)物理合理的運動。然而,相關(guān)方法可能忽略幾何復(fù)雜性,導(dǎo)致次優(yōu)的交互保真度。為了解決這一限制,華南理工大學(xué),琶洲實驗室和騰訊團隊引入了一種基于擴散的框架ROG,通過豐富的幾何細節(jié)對HOI中固有的時空關(guān)系進行建模。

為了高效的對象表示,從對象網(wǎng)格中選擇邊界聚焦和精細細節(jié)關(guān)鍵點,確保對對象幾何結(jié)構(gòu)的全面描述。表示用于構(gòu)建交互距離場(IDF),以捕獲魯棒HOI動態(tài)。另外,研究人員開發(fā)了一個基于擴散的關(guān)系模型,集成了空間和時間注意機制,從而更好地理解復(fù)雜的HOI關(guān)系。關(guān)系模型細化了生成運動的IDF,指導(dǎo)運動生成過程產(chǎn)生關(guān)系感知和語義對齊的運動。實驗評估表明,ROG在合成HOI的真實感和語義準確性方面明顯優(yōu)于最先進的方法。

華南理工大學(xué)團隊提出ROG框架提升VR人機交互真實感  第1張

人-物交互(HOI)合成對于虛擬現(xiàn)實等應(yīng)用創(chuàng)造身臨其境的逼真體驗至關(guān)重要。一個生動的HOI序列可能包括一系列涉及物體的動作,比如走路時拿起它,放下它,然后用腳調(diào)整它的位置,其中人與物體的運動應(yīng)該同步,接觸點必須精確。

實現(xiàn)這種逼真的人工智能需要產(chǎn)生自然的身體運動,并深入了解人與他們操縱物體之間的時空關(guān)系。最近,擴散模型的顯著成功促使了將其應(yīng)用于HOI生成。有的研究將先驗信息納入運動生成模型,如細粒度文本描述、手關(guān)節(jié)位置和可能的接觸圖。與此同時,其他研究實現(xiàn)了引導(dǎo)機制來對擴散模型施加額外的約束,從而實現(xiàn)更物理上合理的運動。

盡管取得了進步,但由于特定挑戰(zhàn),人與物體之間的復(fù)雜關(guān)系尚未得到充分探索,導(dǎo)致交互保真度達不到最佳水平。第一,有效地表示物體的幾何形狀十分困難,這阻礙了人與物體之間時空關(guān)系(如空間距離)的準確計算。以前的方法通常使用物體的質(zhì)心或相對于人類最近的點來簡化物體的表示,而忽略了物體的整體幾何復(fù)雜性。由于計算成本的大幅增加,直接利用物體上的所有表面點同樣不切實際。

第二,由于HOI的高維和動態(tài)特性,設(shè)計能夠?qū)W習(xí)這些關(guān)系的模型本質(zhì)上十分具有挑戰(zhàn)性。捕獲微妙的,依賴于上下文的交互需要復(fù)雜的建模技術(shù),有效地將空間幾何與時間動態(tài)相結(jié)合。

為了應(yīng)對所述挑戰(zhàn),華南理工大學(xué),琶洲實驗室和騰訊團隊提出了ROG。這個基于擴散的框架通過豐富的幾何細節(jié)全面捕獲HOI中的時空關(guān)系,為生成更逼真的交互提供指導(dǎo)。

對于第一個問題,團隊提出了一種利用PDS的高效對象表示方法。具體來說,首先定義包圍對象的最小邊界框。然后,在距離邊界框最近的物體上選擇8個點,并應(yīng)用PDS獲得額外的16個點。通常,邊界點位于物體的末端和角落,它們對于定義物體的整體形狀至關(guān)重要。

同時,PDS可以捕獲到通??赡茉獾胶雎缘木毐砻婕毠?jié)和微妙的幾何變化。結(jié)合邊界聚焦和PDS點確保了物體幾何形狀的整體表示。使用這種表示,研究人員構(gòu)建了一個3D矩陣,以測量人體關(guān)節(jié)與物體關(guān)鍵點之間的距離,而這稱為交互距離場(IDF)。他們使用IDF作為額外的目標函數(shù)來提高運動生成模型對HOI動力學(xué)的理解。

對于第二個問題,研究人員開發(fā)了一個基于擴散的關(guān)系模型,通過預(yù)測IDF矩陣來捕獲HOI中的時空關(guān)系。更具體地說,從視頻生成領(lǐng)域三維數(shù)據(jù)的成功建模中獲得靈感,他們將空間和時間的自注意納入關(guān)系模型,以捕獲局部交互和時間依賴性。然后,設(shè)計一個引導(dǎo)過程,其中關(guān)系模型指導(dǎo)運動生成模型產(chǎn)生關(guān)系感知運動。具體來說,在去噪過程中,根據(jù)運動生成模型預(yù)測的運動來計算IDF矩陣。

然后,關(guān)系模型將這個矩陣作為輸入,并產(chǎn)生一個細化的IDF矩陣,它反過來修正運動,確保生成的運動與期望的時空關(guān)系密切相關(guān)。通過集成核心設(shè)計,所提出方法能夠生成更真實和語義一致的人與對象交互。

華南理工大學(xué)團隊提出ROG框架提升VR人機交互真實感  第2張

團隊定量地評估了合成運動的真實性和語義正確性,與ground truth和最先進的方法進行了對比。實驗結(jié)果表明,模型在定性和定量方面都超越了最先進的方法,推動了人-物交互合成領(lǐng)域的發(fā)展。

相關(guān)論文:Guiding Human-Object Interactions with Rich Geometry and Relations

https://arxiv.org/pdf/2503.20172

總的來說,團隊提出的ROG是一種基于擴散的新型框架,旨在以詳細的幾何精度模擬人-物交互中固有的時空關(guān)系。他們首先構(gòu)建一個交互距離場(IDF),通過利用物體網(wǎng)格上的邊界焦點和精細細節(jié)關(guān)鍵點來捕獲HOI的動態(tài),確保準確表示物體的幾何形狀。在此基礎(chǔ)上,研究人員開發(fā)了一個基于擴散的關(guān)系模型來細化生成的運動的IDF,指導(dǎo)運動生成過程產(chǎn)生關(guān)系感知和語義對齊的運動。