近日,來(lái)自多家中國(guó)科研機(jī)構(gòu)的研究團(tuán)隊(duì)重磅發(fā)布了名為Infinity-MM的超大規(guī)模多模態(tài)數(shù)據(jù)集,并基于該數(shù)據(jù)集訓(xùn)練出了一個(gè)性能卓越的AI模型Aquila-VL-2B。這一突破為多模態(tài)AI發(fā)展注入了新動(dòng)力。

Infinity-MM數(shù)據(jù)集規(guī)模驚人,共包含四大類數(shù)據(jù):1000萬(wàn)條圖像描述、2440萬(wàn)條通用視覺(jué)指令數(shù)據(jù)、600萬(wàn)條精選高質(zhì)量指令數(shù)據(jù),以及300萬(wàn)條由GPT-4等AI模型生成的數(shù)據(jù)。研究團(tuán)隊(duì)采用開(kāi)源AI模型RAM++進(jìn)行圖像分析和信息提取,并通過(guò)獨(dú)特的六大類分類系統(tǒng)確保生成數(shù)據(jù)的質(zhì)量和多樣性。

圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney

在模型架構(gòu)方面,Aquila-VL-2B基于LLaVA-OneVision構(gòu)建,整合了Qwen-2.5語(yǔ)言模型和SigLIP圖像處理技術(shù)。研究團(tuán)隊(duì)采用了四階段漸進(jìn)式訓(xùn)練方法:從基礎(chǔ)的圖文關(guān)聯(lián)學(xué)習(xí)開(kāi)始,逐步過(guò)渡到通用視覺(jué)任務(wù)、特定指令處理,最后融入合成數(shù)據(jù),同時(shí)逐步提升圖像分辨率上限。

盡管僅有20億參數(shù)規(guī)模,Aquila-VL-2B在各項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)亮眼。在多模態(tài)理解能力測(cè)試MMStar中取得54.9%的最佳成績(jī),在數(shù)學(xué)能力測(cè)試MathVista中更是達(dá)到59%的高分,顯著超越同類系統(tǒng)。在通用圖像理解測(cè)試中,該模型在HallusionBench和MMBench分別獲得43%和75.2%的優(yōu)異成績(jī)。

研究發(fā)現(xiàn),合成數(shù)據(jù)的引入對(duì)模型性能提升貢獻(xiàn)顯著。實(shí)驗(yàn)表明,若不使用這些額外數(shù)據(jù),模型性能平均下降2.4%。從第三階段開(kāi)始,Aquila-VL-2B的性能就顯著超越了InternVL2-2B和Qwen2VL-2B等參考模型,特別是在第四階段,隨著數(shù)據(jù)量增加,性能提升更為明顯。

值得一提的是,研究團(tuán)隊(duì)已將數(shù)據(jù)集和模型向研究社區(qū)開(kāi)放,這將極大促進(jìn)多模態(tài)AI技術(shù)的發(fā)展。該模型不僅在Nvidia A100GPU上完成訓(xùn)練,還支持中國(guó)自研芯片,展現(xiàn)了強(qiáng)大的硬件適應(yīng)性。