Hugging Face今天發(fā)布了SmolLM2,一組新的緊湊型語言模型,實(shí)現(xiàn)了令人印象深刻的性能,同時(shí)所需的計(jì)算資源比大型模型少得多。新模型采用Apache2.0許可發(fā)布,有三種大小——135M、360M和1.7B參數(shù)——適合部署在智能手機(jī)和其他處理能力和內(nèi)存有限的邊緣設(shè)備上。
SmolLM2-1B模型在幾個(gè)關(guān)鍵基準(zhǔn)測(cè)試中優(yōu)于Meta的Llama1B模型,尤其是在科學(xué)推理和常識(shí)任務(wù)中表現(xiàn)出色。該模型在大多數(shù)認(rèn)知基準(zhǔn)上的表現(xiàn)都優(yōu)于大型競(jìng)爭(zhēng)模型,使用了包括FineWeb-Edu和專門的數(shù)學(xué)和編碼數(shù)據(jù)集在內(nèi)的多樣化數(shù)據(jù)集組合。
SmolLM2的發(fā)布正值人工智能行業(yè)努力應(yīng)對(duì)運(yùn)行大型語言模型(LLM)的計(jì)算需求的關(guān)鍵時(shí)刻。雖然OpenAI和Anthropic等公司不斷突破模型規(guī)模的界限,但人們?cè)絹碓秸J(rèn)識(shí)到需要能夠在設(shè)備本地運(yùn)行的高效、輕量級(jí)人工智能。
SmolLM2提供了一種不同的方法,將強(qiáng)大的AI功能直接帶入個(gè)人設(shè)備,指向未來更多用戶和公司可以使用先進(jìn)的AI工具,而不僅僅是擁有龐大數(shù)據(jù)中心的科技巨頭。這些模型支持一系列應(yīng)用,包括文本重寫、摘要和函數(shù)調(diào)用,適合部署在隱私、延遲或連接限制使基于云的AI解決方案不切實(shí)際的場(chǎng)景中。
雖然這些較小的模型仍然存在局限性,但它們代表了更高效的人工智能模型的廣泛趨勢(shì)的一部分。SmolLM2的發(fā)布表明,人工智能的未來可能不僅僅屬于越來越大的模型,而是屬于能夠以更少的資源提供強(qiáng)大性能的更高效的架構(gòu)。

