VQAScore是CMU和Meta聯合推出的評估方法,基于視覺問答(VQA)模型衡量由文本提示生成的圖像質量。VQAScore用計算模型對“Does this figure show {text}?”這一問題回答“是”的概率,評估圖像與文本提示的對齊程度。VQAScore的核心優勢在于無需額外人類標注,直接用現有的VQA模型,用概率值的形式提供更精確的評估結果,超越傳統評估指標如CLIPScore。VQAScore已被應用于多個項目中如Imagen3,用于自動評估和優化最新的生成式模型。
VQAScore的主要功能評估圖像與文本提示的對齊程度:VQAScore基于計算一個“是”答案的概率衡量生成的圖像是否符合給定的文本提示。自動化評估:提供自動化的方法評估圖像生成模型,無需人工評分,有助于大規模和快速評估。提高評估的準確性:解決現有評估方法在處理復雜文本提示時的不足,提供更準確的評估結果。支持多種生成任務:VQAScore能評估視頻和3D模型的文本到視覺生成任務。基準測試與模型改進:基于GenAI-Bench基準測試集,VQAScore幫助研究人員識別模型的局限性,指導模型的改進。VQAScore的技術原理問題模板化:將文本提示轉換成一個簡單的是非問題,例如:“Does this figure show {text}?請回答是或否。”圖像和文本的聯合編碼:用VQA模型將圖像和問題(已轉換成token序列)作為輸入,進行聯合編碼。預測答案的概率:VQA模型的解碼器輸出預測答案(“是”或“否”)的概率分布。計算對齊得分:VQAScore定義為模型預測“是”答案的概率,概率反映圖像與文本提示的對齊程度。雙向編碼器-解碼器架構:VQAScore用的CLIP-FlanT5模型基于雙向編碼器-解碼器架構,支持圖像嵌入依賴于問題內容,反之亦然,有助于更好地理解和處理復雜的文本提示。無需額外數據微調:VQAScore在訓練時用圖像和問題的答案對,評估時無需針對特定數據集進行額外的微調。VQAScore的項目地址項目官網:linzhiqiu.github.io/papers/vqascoreGitHub倉庫:https://github.com/linzhiqiu/t2v_metricsarXiv技術論文:https://arxiv.org/pdf/2404.01291在線體驗Demo:https://huggingface.co/spaces/zhiqiulin/VQAScoreVQAScore的應用場景圖像生成模型評估:評估如DALL-E、Imagen、Stable Diffusion等模型根據文本提示生成圖像的準確性和質量。視頻生成模型評估:評估文本到視頻生成模型的性能,如根據劇本或描述生成視頻內容的能力。3D模型生成評估:評估文本到3D模型生成任務,例如根據描述生成3D物體或場景。多模態學習研究:在多模態學習領域,VQAScore可以作為研究工具,幫助研究人員理解模型如何處理和生成跨模態內容。自動化測試和質量控制:在圖像、視頻和3D內容的自動化測試流程中,VQAScore作為質量控制的指標。 
