3D人體姿態估計
(中國AI網 2025年06月18日)3D人體姿態估計在虛擬現實等領域有著廣泛的應用。但在現實場景中,遮擋、噪點干擾和視點缺失等問題會嚴重影響姿勢估計。為了解決所述挑戰,西安電子科技大學和湖南大學團隊提出了缺陷感知3D姿態估計的任務。
傳統的3D姿態估計方法通常依賴于多階段網絡和模塊化組合,而這可能導致累積誤差和增加訓練復雜性,使其無法有效地解決缺陷感知估計。所以,研究人員提出了一種靈活的DeProPose方法。它簡化了網絡架構,以降低多階段設計中的訓練復雜度并避免信息丟失。
另外,模型創新性地引入了基于相對投影誤差的多視點特征融合機制,有效地利用了多視點信息并動態分配權重,實現了高效集成和增強的魯棒性,克服了缺陷感知3D姿態估計的挑戰。
同時,為了徹底評估這種端到端多視圖3D人體姿態估計模型并推進與遮擋相關的研究,他們開發了一種新的3D人體姿態估計數據集,Deficiency-Aware 3D Pose Estimation(DA-3DPE)。所述數據集包含了廣泛的缺陷場景,包括噪點干擾、缺失視點和遮擋挑戰。與最先進的方法相比,DeProPose不僅在解決缺陷感知問題方面表現出色,而且在傳統場景中同樣表現出改進,為3D人體姿態估計提供了強大且用戶友好的解決方案。

人體姿態在一系列領域具有重要的應用價值。然而,這項技術的實現往往依賴于大型和復雜的數據集,并引入了諸多具有挑戰性的問題,如數據稀缺性、注釋難度、非剛性運動和個體差異。所以,業界已經開發了各種方法來解決3D人體姿態估計中的挑戰性問題。
在3D人體姿態估計任務中,由于攝像頭硬件性能和環境因素的變化,生成的圖像數據的質量可能會波動,使其容易受到傳感器噪點、視點變化和圖像失真的干擾。相關干擾可能導致遮擋、數據丟失和噪點的發生,而這是缺陷感知場景的典型例子。
所述問題會降低3D姿態估計的整體精度,并在實際應用場景中提出重大挑戰。因此,開發能夠有效降低噪點和遮擋干擾的模型或系統,同時提高特定條件下的性能至關重要。
盡管業界已經提出了數種3D人體姿態估計模型,但大多數模型主要集中在單視圖場景,未能充分利用多視圖數據集的特征信息。這種限制不僅阻礙了預測性能的提高,而且在面對缺陷感知場景時會導致模型性能的顯著下降。針對這一問題,研究人員將研究重點轉向了多視角3D人體姿態估計,目標是通過融合不同視點的信息來提高姿態估計的精度。然而,如何有效地整合多視角特征,充分利用不同視點的互補性,依然是多視角3D姿態估計的核心挑戰。
傳統的多視圖方法通常依靠簡單的疊加或平均策略來組合來自不同視點的特征。盡管容易實現,但它們不能充分利用視點之間的互補信息,甚至可能引入冗余信息,導致模型精度降低。由于它們不能有效地從不同的角度區分特征的重要性,簡單的融合技術可能會將冗余或噪點信息傳遞到模型中,從而對特征的質量產生負面影響。這在復雜的環境中尤其成問題,因為視點之間的互補性沒有得到充分利用,從而限制了模型的性能。
近年來,盡管在多視圖融合方面取得了顯著進展,但大多數方法依然側重于沒有遮擋和噪點的理想場景,忽略了視圖不完整和退化條件對性能的影響,這限制了它們在復雜環境中的有效性。另外,大多數3D人體姿態估計模型采用兩階段方法:首先進行二維姿態估計,然后將其映射到三維空間。盡管在特定場景下是有效的,但它依賴于多級模塊化設計,將CNN、LSTM、GCN等模塊組合在一起,導致計算負擔高,處理時間長,難以滿足實時性要求。系統的高復雜性需要大量的超參數調優,模塊之間的強依賴性和信息丟失問題也會影響整體性能。
同時,模塊之間不一致的優化目標和信息冗余問題進一步限制了準確性。因此,開發一種簡單、高效、能有效解決缺陷感知估計的多視角3D姿態估計模型成為一個重要的挑戰。
為了解決上述挑戰,西安電子科技大學和湖南大學團隊提出了一種端到端的3D人體姿態估計模型DeProPose。
DeProPose旨在建立一個有效的框架,以有效地處理各種類型的缺陷意識問題。與兩階段方法不同,DeProPose直接從圖像中提取3D姿態特征,簡化了模型架構,減少了冗余信息的傳遞,降低了超參數調優和訓練的成本。模型利用高效的特征提取和自關注機制,能夠同捕獲捉多視圖圖像的時空關系。
為了解決多視圖融合中的信息利用和缺陷感知問題,他們進一步提出了一種基于投影誤差和絕對誤差的特征融合機制。如圖1所示,所述機制根據不同視點的誤差分布自適應調整特征權重,從而實現姿態信息的精確提取。這一方法不僅減少了冗余信息,而且提高了復雜場景下的估計精度。

最后,DeProPose通過多視角特征融合,自動聚焦干擾較少的視點,有效處理缺陷感知估計,確保在復雜環境下都能高精度地恢復姿態。同時,由于在多視圖人體姿態域中缺陷感知問題的探索有限,他們生成了一個新的數據集Deficiency-Aware 3D Pose Estimation(DA-3DPE),專門用于解決多視圖3D人體姿態估計中的挑戰。
所述數據集涵蓋三個關鍵問題:數據缺失、噪點干擾和視點遮擋。所述問題經常發生在復雜的現實場景中,嚴重影響了現有方法的準確性和魯棒性。與現有數據集不同,DA-3DPE數據集側重于為多視圖3D姿態估計提供更現實和更具挑戰性的樣本,特別是在人類姿態識別過程中出現不完整視點或數據不一致的情況下。
相關論文:DeProPose: Deficiency-Proof 3D Human Pose Estimation via Adaptive Multi-View Fusion
總的來說,團隊提出的高效端到端多視角3D人體姿態識別模型在解決復雜場景中的遮擋、噪點干擾和視點不足等挑戰方面具有顯著優勢。與依賴于多階段網絡和模塊組合的傳統方法不同,模型簡化了網絡架構,顯著降低了超參數調優的難度,同時增強了可擴展性。
其核心創新點在于基于投影和絕對誤差的多視圖特征融合機制的發展。機制自適應地為不同視角的特征分配不同的權重,準確整合多個視角的信息,從而有效解決多視角復雜場景下的遮擋和噪點問題。
另外,他們生成了一個包含噪點和缺失數據的新型多視圖數據集,為端到端多視圖3D人體姿態識別模型的綜合測試提供了基礎。數據集不僅豐富了測試場景,而且推動了3D人體姿態識別中遮擋問題的研究。
實驗結果表明,盡管數據集中存在各種類型的遮擋和噪點,但模型在復雜場景下依然保持較高的精度,表現出優異的魯棒性和效率。這一特性在虛擬現實等領域具有廣闊的應用前景。通過減少模型對高質量標注數據的依賴和優化訓練過程,所述方法不僅在實際應用中實現了高效率,而且在處理遮擋、噪點等挑戰方面也表現出色。
未來的研究可以進一步擴展模型以處理更廣泛的遮擋類型,并探索如何在更復雜的姿勢和環境變化中提高模型的準確性和魯棒性。另外,隨著3D姿態識別技術的不斷進步,進一步的研究將推動其在虛擬現實和增強現實等領域的廣泛應用。

