11月27日,DeepSeek 團隊在 Hugging Face 扔出236B 參數(shù)巨獸——DeepSeek-Math-V2,采用 MoE 架構(gòu),活躍參數(shù)僅21B,上下文一口氣拉到128K token。官方同步放出 Apache2.0權(quán)重,商業(yè)限制為零,當(dāng)天就沖爆服務(wù)器帶寬。
數(shù)學(xué)戰(zhàn)績一覽(零樣本 CoT):
- MATH 基準(zhǔn)75.7%,與 GPT-4o(76.6%)幾乎肩并肩;
- AIME20244/30題,多于 Gemini1.5Pro、Claude-3-Opus;
- Math Odyssey53.7%,同樣躋身第一梯隊 。
模型核心秘籍是“自驗證”雙引擎:Generator 先出草稿,Verifier 逐行檢查,把錯誤打回重寫,最多16輪迭代,用多數(shù)投票+元驗證器壓制幻覺。訓(xùn)練語料達(dá) 1000億 token,囊括論文、競賽題與合成數(shù)據(jù),并引入 GRPO 強化學(xué)習(xí)對齊人類偏好 。
得益于代碼-數(shù)學(xué)混合語料,DeepSeek-Math-V2在編程端同樣兇狠:HumanEval90.2%、MBPP76.2%、SWEBench 首次讓開源模型破10% 大關(guān),直接對標(biāo) GPT-4-Turbo、Claude3Opus 。
目前模型已上線 Hugging Face,80GB 顯存即可多卡推理;社區(qū)復(fù)現(xiàn)正火速進(jìn)行。想給 AI 裝一顆“數(shù)學(xué)金牌”大腦,現(xiàn)在只需一行 `transformers` 加載——國產(chǎn)開源,再次把閉源巨頭的護城河切成顯微鏡下的裂縫。

