法國獨(dú)角獸 Mistral AI 于12月2日推出 Mistral3系列模型,包括3B、8B、14B 三個小型密集模型及迄今最強(qiáng)的 Mistral Large3,覆蓋從邊緣設(shè)備到企業(yè)級推理的全場景需求。新模型沿用 Apache2.0開源協(xié)議,權(quán)重已同步上傳至 Hugging Face 與 GitHub,允許商業(yè)免費(fèi)使用。
Mistral3系列在保持前代低延遲優(yōu)勢的同時,將上下文長度擴(kuò)展至128K,并在 MMLU、HumanEval、MT-Bench 等主流基準(zhǔn)中與 Llama3.1同規(guī)格模型打平或小幅領(lǐng)先。公司表示,通過“滑動窗口注意力 + 分組查詢注意力”混合設(shè)計,14B 版本在單張 A100即可完成128K 全上下文推理,批量場景下吞吐量提升42%,為學(xué)術(shù)研究、商業(yè)分析、教育內(nèi)容生成等應(yīng)用提供更高性價比。

圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney
Mistral AI 聯(lián)合創(chuàng)始人兼首席科學(xué)家 Guillaume Lample 指出:“我們的使命是讓高性能 AI 擺脫供應(yīng)商鎖定。開發(fā)者無需巨額預(yù)算,也能獲得與閉源方案媲美的效果。”目前,Mistral Large3已在公司官方平臺 Le Platforme 上線 API,定價為每百萬 token 輸入0.8美元、輸出2.4美元,約為 GPT-4o 的一半,并支持微調(diào)與私有部署。行業(yè)分析認(rèn)為,借助歐洲 GDPR 合規(guī)優(yōu)勢及開放權(quán)重策略,Mistral3有望進(jìn)一步蠶食中小企業(yè)與公共部門市場,推動 AI 基礎(chǔ)設(shè)施“多極化”競爭。

