改善了文本到運動的對齊結果

中國AI網 2025年09月05日)人體運動生成對于虛擬現實等領域至關重要,這要求模型能夠有效地從文本描述中捕獲運動動態。現有方法通常依賴于基于對比語言-圖像預訓練(CLIP)的文本編碼器,但模型在文本-圖像對上的訓練限制了它們理解運動及運動生成固有的時間和運動學結構的能力。

在一項研究中,北卡羅來納大學夏洛特分校團隊提出了 MoCLIP,這是一個經過微調的 CLIP 模型,增加了一個運動編碼頭。模型通過對比學習和束縛損失在運動序列進行訓練。通過顯式地融入運動感知的表征,MoCLIP 在保持與現有基于 CLIP 的流程兼容性的同時,增強了運動保真度,并能無縫集成到各種基于 CLIP 的方法中。

實驗表明,MoCLIP 在保持競爭力強的 FID(弗雷歇起始距離)的同時,提高了 Top-1、Top-2 和 Top-3 檢索準確率,從而改善了文本到運動的對齊結果。相關結果突顯了 MoCLIP 的通用性和有效性,將其確立為一個增強運動生成的魯棒框架。

北卡羅來納大學團隊提出運動感知CLIP優化模型MoCLIP  第1張

生成逼真的人體運動是計算機視覺和圖形學中的一個具有挑戰性的目標,在虛擬現實/增強現實等領域有廣泛應用。由于可能的運動具有高度多樣性,人體運動生成依然充滿挑戰。模型必須學習復雜的時空動態,并生成物理上合理、有意義的序列。

另外,收集具有豐富標注的大規模數據集非常困難 ,通常需要先進的框架來實現自動化標注過程 。運捕數據的獲取成本高昂,且在語義范圍上往往有限。即便是最近將運動與文本標簽配對的數據集,都只覆蓋了運動流形的一部分,未能捕獲自然語言描述的完整豐富性。

業界探索了多種方法來應對人體運動生成問題。條件生成是一個常見主題,即根據某些輸入(如動作類別、文本描述、過去的運動序列或姿態)來生成運動。更近期的研究將自然語言作為條件信號,旨在從文本描述生成運動。文本到運動模型在簡短、模板化的描述(例如“一個人向前走”)和小數據集上展示了令人鼓舞的結果,但在處理超出訓練數據分布范圍、更長或更復雜的描述時常常遇到困難。

為了克服數據限制,研究人員使用生成式框架和預訓練模型。在圖像和音頻生成中取得成功的擴散模型已應用于運動生成,產生了流暢多樣的運動,并達到了最先進的性能。然而,盡管基于擴散的方法在不斷發展,它們依然對計算資源要求很高。

基于 CLIP 的方法利用對比語言-圖像預訓練(CLIP)的豐富先驗知識,通過語義理解來增強運動模型。通過將運動表征與 CLIP 的視覺-語言特征空間對齊,相關方法受益于從 4 億個圖像-文本對中學到的廣泛語義覆蓋。MotionCLIP開創了這種對齊方式,它訓練了一個運動自動編碼器,其潛在空間直接對應于 CLIP 的文本和圖像嵌入,從而能夠在不修改 CLIP 預訓練表征的情況下,根據新穎的文本提示合成運動。

盡管它們通過利用 CLIP 的語義結構增強了運動生成,但 CLIP 本身主要是在文本-圖像對上進行訓練的,并未明確針對捕獲時間進程或復雜的運動學細節進行定制。盡管它能有效地建模語言與靜態視覺內容之間的關系,但直接將基于 CLIP 的表征應用于運動任務可能無法充分考慮高保真運動生成所需的時間連貫性和自然運動模式。

在研究中,北卡羅來納大學夏洛特分校團隊提出了 MoCLIP。這種新穎的人體運動生成模型通過集成一個在運動序列上通過對比學習訓練的專用運動編碼器,顯式地擴展了標準 CLIP 架構。與保持 CLIP 預訓練嵌入的 MotionCLIP 不同,MoCLIP 對 CLIP 的文本編碼器進行微調,將其嵌入向量轉向面向運動的表征,從而內在地捕獲真實運動合成所必需的時間動態和復雜的運動學細節。

另外,MoCLIP 融入了一種蒸餾機制(束縛損失),在將模型明確適應運動領域的同時,保留 CLIP 豐富的語義知識。通過構建一個聯合的運動-文本潛在空間,MoCLIP 將運動序列與相應的自然語言描述對齊,使得基于Transformer的運動生成器能夠生成語義連貫、高保真的人體運動。

北卡羅來納大學團隊提出運動感知CLIP優化模型MoCLIP  第2張

模型保持與現有基于 CLIP 流程的兼容性,允許無縫集成到任何系統中。通過系統地將 CLIP 編碼器暴露于運動序列數據,MoCLIP 在文本提示與 3D 運動表征之間改進了對齊,同時不犧牲模型的廣泛語言理解能力。在定量上,MoCLIP 取得了優于或與 SOTA 相當的結果;在定性上,它對新輸入展現出魯棒的泛化能力。

MoCLIP 在多個模型中提高了檢索準確率。在 MoMask 中,MoCLIP 將 Top-1 R-Precision 從 0.521 提升到 0.533(+1.2%),Top-2 從 0.713 提升到 0.730(+1.7%),Top-3 從 0.807 提升到 0.823(+1.6%)。在 BAMM 中同樣觀察到類似趨勢,Top-1 R-Precision 從 0.522 上升到 0.531(+0.9%),Top-2 從 0.715 上升到 0.724(+0.9%),Top-3 從 0.808 上升到 0.819(+1.1%)。這些改進表明在基于檢索的模型中,運動-文本對齊得到了一致的增強。

另外,MoCLIP 在提高運動-文本一致性的同時保持了感知質量。對于 MoMask,FID 從 0.045 略微增加到 0.047(+0.002),而多模態距離從 2.958 減少到 2.868(-0.09)。這表明存在一種權衡:改進對齊的同時伴隨著感知差異的輕微增加。在 BAMM 中,FID 從 0.055 增加到 0.064(+0.009),而多模態距離從 2.936 減少到 2.871(-0.065)。

與 MoMask 和 BAMM 不同,BAD 模型未能從 MoCLIP 集成中受益,檢索準確率略有下降。盡管FID 分數從 0.065 改善到 0.062(-0.003),但 Top-1 R-Precision 從 0.517 下降到 0.510(-0.7%),Top-2 從 0.713 下降到 0.706(-0.7%),Top-3 從 0.808 下降到 0.801(-0.9%)。另外,多模態距離從 2.901 增加到 2.941(+0.04),表明運動-文本關系較弱。這種性能下降很可能是由于 BAD 的基礎架構造成的。

與基于 Token 的生成模型不同,BAD 采用雙向自回歸擴散,它通過基于排列的破壞技術結合了順序和雙向注意力。盡管這使得 BAD 能夠有效捕獲長距離運動依賴關系,但同時可能使模型對其嵌入空間的修改更為敏感。MoCLIP 可能引入了 BAD 已學習依賴關系的微妙變化,導致檢索準確率變弱。這表明具有雙向約束的 BAD 自回歸模型可能不如其他模型那樣有效地與 MoCLIP 集成。

MoCLIP 在 MoMask 和 BAMM 中提高了檢索準確率和運動-文本一致性,使 R-Precision 提高了 1.2–1.7%,多模態距離減少了 2–3%。然而,將其集成到 BAD 中會導致輕微的性能下降,這很可能是由于架構不兼容。相關發現表明 MoCLIP 在基于 Token 的模型中更有效,而雙向自回歸架構可能需要額外的適配才能充分利用其優勢。

研究人員進行了全面的消融研究,以評估 MoCLIP 中各個組件的有效性和重要性。具體來說,他們檢查了兩種訓練類型:一種na?ve基線,采用基本的對比學習,沒有專門的位置編碼或定向注意力機制;另一種高級版本,包含位置編碼、對關鍵身體部位(如手和腳)的定向注意力、束縛損失和余弦相似度對齊。兩項研究都旨在量化這些訓練變體和特征增強對人體運動生成性能的影響。

為了確定保留 CLIP 語義知識與適應運動特定任務之間的最佳平衡,研究人員深入研究了束縛損失權重 (λ) 的影響。他們為所有三個基線模型選擇了多個候選值,具體為 λ ∈ {0, 0.2, 0.4, 0.6, 0.8, 1.0}。在實驗中,保持一致的實驗設置:每個模型總共訓練 50 個 epoch,使用對比學習、余弦對齊和束縛損失的組合。研究人員定期監控弗雷歇起始距離和多模態距離等性能指標,以捕獲 λ 變化時性能的細微變化。

他們進一步探討了我們專門的微調和額外架構增強(位置編碼和定向注意力機制)的必要性和有效性。為此,團隊開發了一個na?ve基線模型,它僅使用基本的對比學習,沒有專門的位置編碼或對關鍵身體部位(如手和腳)的增強注意力。為了評估嵌入微調度計劃的效果,研究人員嘗試在最后 2、5、7 和 10 個 epoch 期間解凍文本嵌入,這使得能夠衡量不同微調持續時間的影響。

消融研究中的所有模型都在相同條件下使用 HumanML3D 數據集進行評估。每個模型配置都經過訓練,然后測試二十次,以確保報告結果的可靠性和統計顯著性。

北卡羅來納大學團隊提出運動感知CLIP優化模型MoCLIP  第3張

北卡羅來納大學團隊提出運動感知CLIP優化模型MoCLIP  第4張

表 2 和圖 3 中展示了消融研究的詳細結果,評估了不同微調 epoch 和束縛損失權重 (λ) 對 MoCLIP na?ve模型(頂行)的影響。MoMask 在 5 個 epoch 時達到最佳 FID(0.053),在性能和檢索準確率(Top-1: 0.538)之間取得平衡,而額外的 epoch 提高了準確率但對 FID 產生負面影響。

BAMM 在 10 個 epoch 時達到其最佳的整體樸素 MoCLIP 性能,呈現最低的 FID(0.079)和同時最高的檢索準確率(Top-1: 0.541)。值得注意的是,與高級模型和訓練相比,BAD 獨特地受益于更長時間的樸素訓練,各項指標穩步提升,并在 10 個 epoch 時達到最佳樸素 FID(0.062)。鑒于其相對于高級方法的性能,樸素訓練的 BAD 模型被選作最終使用。

相比之下,對于使用束縛方法訓練的高級模型(底行),模型選擇優先考慮最優 FID 以及指標間的一致性。MoMask 在中等束縛權重 λ = 0.4 時表現出最強的性能,達到最佳整體 FID(0.047),同時具有魯棒的檢索準確率(Top-1: 0.533)以及在 MM-Dist 和多樣性指標上的穩定表現。類似地,BAMM 在 λ = 0.4 時達到其最低 FID(0.064)和一致平衡的性能指標,支持將其選作最終部署。然而,BAD 的高級訓練方法相比樸素訓練并未顯示出顯著的指標改進,因此選擇在 10 個 epoch 時樸素訓練的模型用于最終實現。

相關論文:MoCLIP: Motion-Aware Fine-Tuning and Distillation of CLIP for Human Motion Generation

https://arxiv.org/pdf/2505.10810

總的來說,團隊介紹了 MoCLIP。這是一種易于實現的微調策略,只需最小調整即可直接替代標準 CLIP 編碼器。MoCLIP 通過對比學習、保留語義一致性的束縛損失、以及語義對齊運動-文本嵌入的余弦相似度對齊損失,將 CLIP 的文本嵌入與運動感知表征對齊。

實驗證明了語義對齊和檢索準確率的一致提升:MoMask 的 Top-1 R-Precision 從 0.521 提高到 0.533(+1.2%),BAMM 從 0.522 提高到 0.531(+0.9%),同時保持了競爭力強的 FID 分數(MoMask:從 0.045 到 0.047;BAMM:從 0.055 到 0.064)。MoCLIP 以較低的實施成本提供了即時的性能提升。

然而,結果表明,某些模型架構可能無法同等受益于這種微調方法。例如,BAD 的 Top-1 R-Precision 略有下降(從 0.517 到 0.510),多模態距離有所增加(從 2.901 到 2.941),這表明某些架構可能需要有針對性的微調方法或架構改進才能充分利用這些嵌入。

在未來的研究中,團隊將通過擴展到更多運動生成架構(如擴散模型)和更多數據集(如 KIT-ML)來進一步驗證 MoCLIP 的有效性。此外,探索特定于架構的微調策略,并研究針對單個模型的自適應微調技術,可能會在性能和泛化方面帶來進一步的改進。