評估AI生成3D人臉的質量

中國AI網 2025年08月15日)生成式人工智能的快速發展使得創建3D人臉成為可能,并可為虛擬現實等領域帶來幫助。然而,由于人類感知的主觀性以及對面部特征固有的感知敏感性,評估AI生成3D人臉的質量和真實感依然是一項重大挑戰。所以,上海交通大學團隊開展了一項關于AI生成3D人臉質量評估的綜合研究。

團隊首先介紹了Gen3DHF,這是一個大規模基準數據集,包含2000個AI生成的3D人臉視頻,以及從質量和真實感兩個維度收集的4000個平均意見得分(MOS)、2000個失真感知顯著圖和失真描述。基于Gen3DHF,團隊進一步提出了LMME3DHF,這是一個基于大型多模態模型LMM的3DHF評估指標,能夠進行質量和真實感得分預測、失真感知視覺問答(VQA)以及失真感知顯著性預測。

實驗結果表明,LMME3DHF在準確預測AI生成3D人臉的質量得分、有效識別失真感知顯著區域和失真類型方面均取得了最先進的性能,超越了現有方法,同時與人類感知判斷保持了高度一致。

上海交通大學發布AI生成3D人臉質量評估數據集Gen3DHF  第1張

隨著數字通信的持續擴展,傳達諸如語氣、情感和個性等微妙的人類屬性變得越來越重要。為應對挑戰,由開創性的生成對抗網絡(GANs)和擴散模型驅動的數字人已成為一種有前景的解決方案。其中,AI生成的3D人臉因其在虛擬現實和遠程呈現等應用中實現逼真化身的潛力而受到特別關注。

盡管生成能力取得了顯著提升,但最先進的3D人臉生成模型依然可能產生存在感知失真和非真實感偽影的輸出,無法滿足人類的質量期望。

人類評估能提供有價值的見解,但對于大規模評估而言,其成本依然過高且效率低下。因此,開發一種能夠準確反映人類對AI生成3D人臉的感知和偏好的客觀質量度量標準至關重要。然而,由于面部失真本質上不同于一般AI生成圖像或常見物體的失真,現有的質量評估方法在評估AI生成的3D人臉方面存在不足。

近年來,AI生成內容質量評估研究勢頭強勁,業界已提出了多個用于圖像質量評估(IQA)和視頻質量評估(VQA)的數據集。盡管相關數據集做出了貢獻,但它們主要針對通用物體和場景設計,因此不太適合評估呈現獨特失真模式的AI生成3D人臉,且均未明確針對3D人臉質量評估而設計。

傳統的量化指標如初始分數(IS)和 Fréchet Inception距離(FID)為整體模型性能提供了有用見解,但在評估單個生成樣本的感知真實性方面存在根本性局限。傳統的IQA方法雖能有效評估具有常見失真的單個自然圖像,卻忽略了AI生成人臉上的獨特失真。

同樣,現有的VQA方法忽視了3D人臉評估的專業要求。另外,相關研究僅關注質量評估,而忽視了失真區域定位這一關鍵需求。傳統的顯著圖預測方法僅識別視覺顯著區域,無法區分自然顯著的面部區域和包含嚴重質量退化的區域。

在研究中,上海交通大學團隊介紹了Gen3DHF。這是一個綜合性的數據集和基準,包含由五個不同模型生成的2000個多樣化3D HF視頻樣本。如圖1所示,他們收集了90,000個人工標注,獨立評估質量和真實感,得到4,000個平均意見得分(MOS)。另外,研究人員收集了失真標記及相應的失真描述,總計得到2,000個失真感知顯著圖及對應的失真描述。

基于Gen3DHF,他們進一步提出了LMME3DHF。這是一種基于LMM的度量標準,不僅旨在從質量和真實感兩個維度評估3D人臉內容,而且能預測并輸出顯著的失真區域及其相應的文本描述。LMME3DHF利用指令微調和LoRA自適應技術來微調語言模型。大量實驗結果表明,LMME3DHF取得了最先進的性能,不僅在準確預測AI生成3D HF的質量得分方面超越了現有質量評估方法,而且在有效識別失真感知顯著區域和判斷失真類型方面也表現出色。

上海交通大學發布AI生成3D人臉質量評估數據集Gen3DHF  第2張

如表1所示,傳統手工設計的IQA指標(如BRISQUE和NIQE)在場景中表現不佳,這表明其手工設計的特征主要針對自然圖像失真,無法很好地泛化到AI生成的3D人臉。另一方面,盡管基于LLM的指標因其先進的視覺理解和視覺問答能力而廣受認可,但它們在準確評估感知視頻質量方面存在不足。

相比之下,基于深度學習的指標(無論最初是為IQA還是VQA設計)均顯著優于手工設計和基于LLM的方法。然而,盡管模型在感知質量評估方面取得了中等至較高的性能,但它們普遍缺乏視覺問答能力,而這對于提高AI生成內容評估的可解釋性和診斷反饋至關重要。

團隊提出的方法LMME3DHF在質量和真實感兩個角度均取得了最佳性能,這證實了模型在從多角度評估AI生成3D人臉的人類視覺體驗方面的有效性。

為評估模型在視覺問答任務上的性能,團隊進一步比較了提出的LMME3DHF與各種基于LMM的指標的視覺問答性能,如表2所示。模型被要求識別和分類視頻內容中存在的失真類型,并從預失真類別中選擇。結果顯示,LMME3DHF顯著優于所有其他基線,在失真類型預測上達到高準確率,突顯了其在感知理解和詳細診斷能力上的優勢。

為評估失真感知顯著圖預測任務的性能,團隊將LMME3DHF與當前最先進的顯著圖預測模型(包括傳統方法和基于深度學習的方法)進行比較。如表3所示,LMME3DHF在各種評估指標上均顯著優于所有基線模型。這種卓越性能可歸因于任務的特性,它不同于傳統的顯著圖預測。與關注廣泛視覺注意力的通用顯著檢測不同,任務針對稀疏的、失真感知的顯著性,識別與視覺失真相關的精確區域。因此,常用的顯著圖預測模型并不適合這一專門任務,導致其性能受限。

上海交通大學發布AI生成3D人臉質量評估數據集Gen3DHF  第3張

圖8所示的視覺比較以及圖9中對Gen3DHF數據集樣本圖像的預測結果進一步表明,LMME3DHF優于其他顯著圖預測模型,清晰地展示了其在準確定位失真感知顯著區域方面的卓越能力。

團隊進行了消融實驗以驗證所提LMME3DHF框架中關鍵組件的貢獻。表4展示了失真感知顯著解碼器的結果。實驗(1)表明,移除來自語言解碼器的特征會導致性能顯著下降。實驗(2)通過設置空提示進一步強調了這一情況,從而證明了文本引導的關鍵作用。

實驗(3)表明,僅使用融合的多模態特征增強了模型預測失真感知顯著性的能力。實驗(4)展示了我們結合了視覺和多模態特征的方法取得了最高性能,證實了整合兩種特征類型的有效性。得分預測和視覺問答的結果總結在表5中。實驗(1)僅微調視覺編碼器(vision encoder),在兩個任務上均表現最弱。實驗(2)表明微調LLM顯著提升了性能,在本質上基于文本的視覺問答任務中改進尤為顯著。實驗(3)在得分預測任務上顯示出顯著改進,突顯了質量回歸模塊(quality regression module)的有效性。實驗(4)與實驗(2)表現相當,表明視覺編碼器在改進評估結果中作用較小。最終,實驗(5)和(6)實現了最佳整體性能。其中,選擇實驗(5)的配置作為LMME3DHF的默認設置,因其在強勁性能和計算效率之間取得了平衡。

相關論文:LMME3DHF: Benchmarking and Evaluating Multimodal 3D Human Face Generation with LMMs

https://arxiv.org/pdf/2504.20466

總的來說,團隊研究了AI生成3D人臉的人類視覺偏好評估問題。研究人員引入了Gen3DHF,它包含由五個不同模型生成的2000個3D HF視頻,從質量和真實感兩個維度進行評估,并標注了MOS以及失真標記-描述對。利用Gen3DHF,他們評估了最先進的質量評估模型,并為任務建立了新的基準。

基于數據集,團隊進一步提出了LMME3DHF。這是一種基于LMM的評估模型,它利用指令微調和LoRA技術來執行感知質量評估,并預測失真感知顯著圖以及描述性解釋。大量實驗證明,LMME3DHF在Gen3DHF的質量評估和失真感知顯著圖預測任務上均實現了最先進的性能。

團隊希望LMME3DHF能成為推動AI生成3D人臉生成與評估研究的有價值工具。