InfiMM-WebMath-40B 是字節(jié)跳動和中國科學(xué)院聯(lián)合開源的超大規(guī)模多模態(tài)數(shù)據(jù)集,旨在提升多模態(tài)模型的圖文混合推理能力,在數(shù)學(xué)領(lǐng)域。數(shù)據(jù)集從 Common Crawl 中提取,經(jīng)過嚴(yán)格的篩選、清洗和標(biāo)注,包含 2400 萬個網(wǎng)頁、8500 萬個圖像 URL 和 400 億個文本標(biāo)記,涵蓋了豐富的數(shù)學(xué)和科學(xué)相關(guān)內(nèi)容。InfiMM-WebMath-40B 能顯著提升模型在數(shù)學(xué)推理方面的能力,在 MathVerse 和 We-Math 等基準(zhǔn)測試中取得了優(yōu)異的成績。
InfiMM-WebMath-40B的主要功能提升數(shù)學(xué)推理能力: InfiMM-WebMath-40B 包含大量的數(shù)學(xué)和科學(xué)相關(guān)內(nèi)容,包括文本、公式、符號和圖像,幫助 MLLMs 學(xué)習(xí)數(shù)學(xué)知識,提升其在數(shù)學(xué)推理方面的能力。理解多模態(tài)信息: 該數(shù)據(jù)集是多模態(tài)的,包含文本和圖像數(shù)據(jù),幫助 MLLMs 學(xué)習(xí)如何將文本和圖像信息結(jié)合起來進(jìn)行推理,更好地理解復(fù)雜的數(shù)學(xué)概念和問題。P2 促進(jìn)模型應(yīng)用: 基于 InfiMM-WebMath-40B 預(yù)訓(xùn)練的 MLLMs 能更好地應(yīng)用于數(shù)學(xué)相關(guān)的應(yīng)用程序,例如數(shù)學(xué)題庫、數(shù)學(xué)學(xué)習(xí)工具、數(shù)學(xué)論文閱讀和理解等。InfiMM-WebMath-40B的技術(shù)原理數(shù)據(jù)來源: 基于Common Crawl,包含互聯(lián)網(wǎng)公開網(wǎng)頁內(nèi)容的大型數(shù)據(jù)庫。數(shù)據(jù)篩選:基于關(guān)鍵詞匹配,保留包含數(shù)學(xué)、公式等特定詞匯的頁面。 設(shè)置閾值條件,例如每個文檔中至少包含一定數(shù)量的 LaTeX 符號。 用 fastText 進(jìn)行語言過濾,只保留中英文內(nèi)容。數(shù)據(jù)提取:用 Trafilatura 庫提取文本內(nèi)容。 分析網(wǎng)頁中的圖像 URL,提取與數(shù)學(xué)內(nèi)容相關(guān)的圖像。數(shù)據(jù)清洗:用 MinHash 等技術(shù)進(jìn)行去重。 采用基于規(guī)則的過濾方法,例如去除包含“l(fā)orem ipsum”的短文檔、過濾掉含有不適當(dāng)內(nèi)容的文檔及排除包含 Unicode 錯誤的文檔等。數(shù)據(jù)標(biāo)注:用 LLaMA3-70B-Instruct 模型對數(shù)學(xué)內(nèi)容進(jìn)行評分,并用 fastText 分類器進(jìn)行高精度過濾。InfiMM-WebMath-40B的項(xiàng)目地址HuggingFace模型庫:https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40BarXiv技術(shù)論文:https://arxiv.org/pdf/2409.12568InfiMM-WebMath-40B的應(yīng)用場景數(shù)學(xué)題庫和評估工具: 開發(fā)者訓(xùn)練 MLLMs,使其能夠自動生成數(shù)學(xué)題目、評估學(xué)生答案并提供反饋,構(gòu)建智能化的數(shù)學(xué)題庫和評估工具。數(shù)學(xué)學(xué)習(xí)工具和平臺: 幫助 MLLMs 更好地理解數(shù)學(xué)概念和公式,開發(fā)出更智能的數(shù)學(xué)學(xué)習(xí)工具和平臺,例如提供個性化學(xué)習(xí)建議、解答學(xué)生疑問、輔助數(shù)學(xué)解題等。數(shù)學(xué)論文閱讀和理解:?MLLMs?提升對數(shù)學(xué)論文的理解能力,開發(fā)出能夠自動摘要、翻譯和解釋數(shù)學(xué)論文的工具。數(shù)學(xué)研究:為數(shù)學(xué)研究提供數(shù)據(jù)支持,例如用于訓(xùn)練數(shù)學(xué)模型、進(jìn)行數(shù)學(xué)實(shí)驗(yàn)和分析數(shù)學(xué)數(shù)據(jù)等。其他科學(xué)領(lǐng)域:? InfiMM-WebMath-40B 包含科學(xué)相關(guān)的內(nèi)容,例如物理、化學(xué)、生物等,訓(xùn)練 MLLMs 理解科學(xué)概念、公式和圖像,并輔助科學(xué)研究和應(yīng)用。 
