亚洲午夜极品,国产激情综合,欧美高清另类hdvideosexjaⅴ

近日，來自多家中國機構的研究團隊成功創建了 “Infinity-MM” 數據集，這是目前最大規模的公開多模態 AI 數據集之一，同時訓練出了一款性能卓越的小型新模型 ——Aquila-VL-2B。

該數據集主要包含四大類數據:1000萬條圖像描述、2440萬條一般視覺指令數據、600萬條精選高質量指令數據，以及300萬條由 GPT-4和其他 AI 模型生成的數據。

在生成方面，研究團隊利用現有的開源 AI 模型。首先，RAM++ 模型分析圖像并提取重要信息，隨后生成相關問題和答案。此外，團隊還構建了一種特殊的分類系統，確保生成數據的質量和多樣性。

這一合成數據生成方法采用了多層次的處理方式，結合了 RAM++ 和 MiniCPM-V 模型，通過圖像識別、指令分類和響應生成，為 AI 系統提供了精準的訓練數據。

Aquila-VL-2B 模型基于 LLaVA-OneVision 架構，使用 Qwen-2.5作為語言模型，并采用 SigLIP 進行圖像處理。模型的訓練分為四個階段，逐步提高復雜性。在第一階段，模型學習了基本的圖像 - 文本關聯;后續階段則包含一般視覺任務、具體指令的執行，以及最終整合合成生成的數據。的圖像分辨率也在訓練逐漸提升。

測試中，Aquila-VL-2B 憑借僅有20億參數的體量，在多模態的 MMStar 基測試中以54.9% 的得分下最佳成績。此外，在數學任務中，該模型表現尤為突出，在 MathVista 測試得分達59%，遠超同類系統。

在通用圖像理解的測試中，Aquila-VL-2B 同樣表現優異，HallusionBench 得分為43%，MMBench 得分為75.2%。研究人員表示，合成生成數據的加入顯著提升了模型的表現，若不使用這些額外數據，模型的平均表現將下降2.4%。

此次研究團隊決定將數據集和模型向研究社區開放，訓練過程主要使用 Nvidia A100GPU 及中國本土芯片。Aquila-VL-2B 的成功推出，標志著開放源代碼模型在 AI 研究中逐漸迎頭趕上傳統閉源系統的趨勢，尤其是在利用合成訓練數據方面展現出良好的前景。

Infinity-MM論文入口:https://arxiv.org/abs/2410.18558

Aquila-VL-2B項目入口:https://huggingface.co/BAAI/Aquila-VL-2B-llava-qwen