近日,來自多家中國機構的研究團隊成功創建了 “Infinity-MM” 數據集,這是目前最大規模的公開多模態 AI 數據集之一,同時訓練出了一款性能卓越的小型新模型 ——Aquila-VL-2B。

該數據集主要包含四大類數據:1000萬條圖像描述、2440萬條一般視覺指令數據、600萬條精選高質量指令數據,以及300萬條由 GPT-4和其他 AI 模型生成的數據。

在生成方面,研究團隊利用現有的開源 AI 模型。首先,RAM++ 模型分析圖像并提取重要信息,隨后生成相關問題和答案。此外,團隊還構建了一種特殊的分類系統,確保生成數據的質量和多樣性。

這一合成數據生成方法采用了多層次的處理方式,結合了 RAM++ 和 MiniCPM-V 模型,通過圖像識別、指令分類和響應生成,為 AI 系統提供了精準的訓練數據。

Aquila-VL-2B 模型基于 LLaVA-OneVision 架構,使用 Qwen-2.5作為語言模型,并采用 SigLIP 進行圖像處理。模型的訓練分為四個階段,逐步提高復雜性。在第一階段,模型學習了基本的圖像 - 文本關聯;后續階段則包含一般視覺任務、具體指令的執行,以及最終整合合成生成的數據。的圖像分辨率也在訓練逐漸提升。

測試中,Aquila-VL-2B 憑借僅有20億參數的體量,在多模態的 MMStar 基測試中以54.9% 的得分下最佳成績。此外,在數學任務中,該模型表現尤為突出,在 MathVista 測試得分達59%,遠超同類系統。

在通用圖像理解的測試中,Aquila-VL-2B 同樣表現優異,HallusionBench 得分為43%,MMBench 得分為75.2%。研究人員表示,合成生成數據的加入顯著提升了模型的表現,若不使用這些額外數據,模型的平均表現將下降2.4%。

此次研究團隊決定將數據集和模型向研究社區開放,訓練過程主要使用 Nvidia A100GPU 及中國本土芯片。Aquila-VL-2B 的成功推出,標志著開放源代碼模型在 AI 研究中逐漸迎頭趕上傳統閉源系統的趨勢,尤其是在利用合成訓練數據方面展現出良好的前景。

Infinity-MM論文入口:https://arxiv.org/abs/2410.18558

Aquila-VL-2B項目入口:https://huggingface.co/BAAI/Aquila-VL-2B-llava-qwen

劃重點:

?? 數據集 “Infinity-MM” 包含1000萬條圖像描述和2440萬條視覺指令數據。

?? 新模型 Aquila-VL-2B 在多個基準測試中表現優異,打破了同類模型的記錄。

?? 合成數據的使用顯著提升了模型性能,研究團隊決定向社區開放數據集和模型。