Infinity-MM是什么

Infinity-MM是智源研究院推出的千萬級多模態指令數據集,包含4300萬條樣本,數據量達10TB。數據集經過質量過濾和去重,確保高質量和多樣性,能提升開源視覺-語言模型(VLMs)的性能。智源推出基于開源VLMs的合成數據生成方法,進一步擴充數據集規模和多樣性。基于Infinity-MM,智源成功訓練20億參數的多模態模型Aquila-VL-2B,在同規模模型中取得最先進的性能。

Infinity-MM  智源推出的千萬級多模態指令數據集 第1張Infinity-MM的主要功能提升開源模型性能:Infinity-MM基于提供大規模和高質量的指令數據,提高開源視覺-語言模型(VLMs)的性能,接近或達到閉源模型的水平。數據集構建:包含4300萬條經過嚴格篩選和去重的多模態樣本,覆蓋視覺問答、文字識別、文檔分析和數學推理等多種類型。合成數據生成:基于開源VLMs和詳細的圖像注釋,生成與圖像內容緊密相關的多樣化指令,擴充數據集規模和提升數據多樣性。模型訓練與評估:Infinity-MM數據集用在訓練一個20億參數的VLM,Aquila-VL-2B,模型在多個基準測試中顯示出卓越的性能。推動多模態研究:基于提供大規模的高質量數據集,促進多模態AI領域的研究和應用發展。Infinity-MM的技術原理數據收集與預處理:Infinity-MM的數據來源于多個公開數據集,經過去重和質量過濾,確保數據集的高質量和多樣性。合成數據生成方法圖像和指令標記系統:用開源的識別模型(如RAM++)對圖片進行自動打標,提取關鍵信息,形成圖像的語義基礎。指令標簽體系:設計一個三級指令標簽體系,涵蓋不同層次和種類的指令。圖片與指令標簽對應關系建立:統計圖片標簽與指令標簽之間的對應關系,快速檢索匹配的指令任務標簽。問題生成與過濾:指示模型根據圖片和指令類型生成具體問題,進行合理性判斷。答案生成與過濾:生成問題后,進一步生成相應的指令回答,進行嚴格過濾,確保與圖片內容或任務的匹配性。分階段訓練策略:Aquila-VL-2B模型基于分階段訓練方法,逐步提升模型對視覺信息的理解和處理能力。多模態架構:Aquila-VL-2B模型基于LLaVA-OneVision架構,結合文本塔(Qwen2.5-1.5B-instruct)和視覺塔(Siglip400m)。訓練效率提升:智源自研的FlagScale框架對模型訓練進行適配,提高訓練效率,是原版基于DeepSpeed訓練代碼的1.7倍。Infinity-MM的項目地址HuggingFace模型庫:https://huggingface.co/datasets/BAAI/Infinity-MMarXiv技術論文:https://arxiv.org/pdf/2410.18558Infinity-MM的應用場景視覺問答(Visual Question Answering, VQA):基于圖像和相關問題的配對數據,訓練模型理解和回答關于圖像內容的問題。圖像字幕生成(Image Captioning):為圖片生成描述性的文本,在社交媒體、內容管理和圖像檢索等領域有廣泛應用。文檔理解和分析(Document Understanding and Analysis):提取和理解文檔中的視覺和文本信息,適用于自動化辦公、智能文檔處理和信息提取。數學和邏輯推理(Mathematical and Logical Reasoning):訓練模型解決數學問題和邏輯推理任務,對于教育技術、自動化測試和智能輔導系統非常有用。多模態交互系統(Multimodal Interaction Systems):結合視覺和語言信息,提升人機交互的自然性和效率,適用于智能助手和客戶服務機器人。