SmolLM2是什么

SmolLLM2是Hugging Face推出用在設備端應用的緊湊型大型語言模型,提供1.7B、360M、135M三個不同參數級別的模型,適應不同的應用場景和資源限制。模型在理解和執行指令、進行知識推理及解決數學問題方面表現出顯著的進步。基于采用監督微調和超反饋優化技術,SmolLLM2能更準確地理解和響應復雜的指令,且在文本重寫、摘要生成和函數調用等任務上展現出強大的能力。讓SmolLLM2非常適合需要在本地設備上進行高效語言處理的應用,如智能助手、聊天機器人和其他需要自然語言理解的設備端服務。

SmolLM2  Hugging Face推出的緊湊型大語言模型 第1張SmolLM2的主要功能文本重寫:SmolLLM2模型能對文本進行重寫,讓文本更加精煉或符合特定的風格和要求。摘要生成:模型能從較長的文本中提取關鍵信息,生成摘要。函數調用:SmolLLM2支持函數調用,對于自動編碼助手或需要與現有軟件無縫集成的個人AI應用程序特別有用。設備端運行:SmolLLM2能在本地設備上運行,無需依賴云基礎設施,適合延遲、隱私和硬件限制重要的應用場景。多任務處理:模型針對多種自然語言處理任務進行優化,適合各種應用程序,尤其是在與云服務連接受限的設備上。SmolLM2的技術原理后訓練技術:SmolLLM2系列包含先進的后訓練技術,如監督微調(SFT)和直接偏好優化(DPO),增強模型處理復雜指令和提供更準確響應的能力。框架兼容性:SmolLLM2與llama.cpp和Transformers.js等框架兼容,能在設備上高效運行,包括本地CPU處理和在瀏覽器環境中運行,無需專門的GPU。數據集訓練:SmolLLM2用來自FineWeb-Edu、DCLM和Stack等數據集的11萬億個標記進行訓練,涵蓋廣泛的內容,主要側重于英語文本。模型結構:SmolLLM2的135M和360M模型用和MobileLLM類似的設計,加入Grouped-Query Attention結構,1.7B模型用相對傳統的設計。所有模型均用embedding tying,上下文長度為2048個token。SmolLM2的項目地址HuggingFace模型庫:https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9SmolLM2的應用場景設備端應用:SmolLLM2專為在資源有限的設備上運行設計,如智能手機或邊緣設備,無需依賴云基礎設施。延遲敏感和隱私保護:適于對延遲和數據隱私有高要求的應用,如邊緣AI應用。文本處理任務:包括文本重寫、摘要生成和函數調用等,特別是在云服務連接受限的設備上。自動編碼助手:支持與現有軟件無縫集成的自動編碼助手或個人AI應用程序,特別是需要函數調用功能的場合。NLP任務:在常見的自然語言處理任務中表現出色,適合需要實時設備處理的應用。