SmolVLM是Hugging Face推出的輕量級視覺語言模型,專為設(shè)備端推理設(shè)計。以20億參數(shù)量,實現(xiàn)了高效內(nèi)存占用和快速處理速度。SmolVLM提供了三個版本以滿足不同需求:SmolVLM-Base:適用于下游任務(wù)的微調(diào)。SmolVLM-Synthetic:基于合成數(shù)據(jù)進(jìn)行微調(diào)。SmolVLM-Instruct:指令微調(diào)版本,可直接應(yīng)用于交互式應(yīng)用中。模型借鑒Idefics3理念,采用SmolLM2 1.7B作為語言主干,通過像素混洗技術(shù)提升視覺信息壓縮效率。在Cauldron和Docmatix數(shù)據(jù)集上訓(xùn)練,優(yōu)化了圖像編碼和文本處理能力。
SmolVLM的主要功能設(shè)備端推理:SmolVLM專為設(shè)備端推理設(shè)計,能在筆記本電腦、消費級GPU或移動設(shè)備等資源有限的環(huán)境下有效運行。微調(diào)能力:模型提供三個版本以滿足不同需求:SmolVLM-Base用于下游任務(wù)的微調(diào);SmolVLM-Synthetic基于合成數(shù)據(jù)進(jìn)行微調(diào);SmolVLM-Instruct指令微調(diào)版本,可直接應(yīng)用于交互式應(yīng)用中。優(yōu)化的架構(gòu)設(shè)計:借鑒Idefics3的理念,使用SmolLM2 1.7B作為語言主干,通過像素混洗策略提高視覺信息的壓縮率,實現(xiàn)更高效的視覺信息處理。處理長文本和多張圖像:訓(xùn)練數(shù)據(jù)集包括Cauldron和Docmatix,對SmolLM2進(jìn)行上下文擴(kuò)展,能處理更長的文本序列和多張圖像。內(nèi)存占用低:SmolVLM將384×384像素的圖像塊編碼為81個tokens,相比之下,Qwen2-VL需要1.6萬個tokens,顯著降低了內(nèi)存占用。高吞吐量:在多個基準(zhǔn)測試中,SmolVLM的預(yù)填充吞吐量比Qwen2-VL快3.3到4.5倍,生成吞吐量快7.5到16倍。開源模型:SmolVLM完全開源,所有模型檢查點、VLM數(shù)據(jù)集、訓(xùn)練配方和工具均在Apache 2.0許可證下發(fā)布。訓(xùn)練數(shù)據(jù)集:SmolVLM涵蓋了Cauldron和Docmatix,并對SmolLM2進(jìn)行了上下文擴(kuò)展,使其能夠處理更長的文本序列和多張圖像。SmolVLM的項目地址Github倉庫:https://github.com/huggingface/blog/blob/main/smolvlm.mdHuggingFace模型庫:https://huggingface.co/blog/smolvlm在線體驗Demo:https://huggingface.co/spaces/HuggingFaceTB/SmolVLM數(shù)據(jù)集完整列表:https://huggingface.co/HuggingFaceTB/SmolVLM-Instruct/blob/main/smolvlm-data.pdfSmolVLM的應(yīng)用場景視頻分析:SmolVLM展現(xiàn)出了作為基本視頻分析任務(wù)的潛力,在計算資源受限的情況下。在CinePile基準(zhǔn)測試中,SmolVLM取得了27.14%的得分,顯示了在視頻理解能力上的競爭性。視覺語言處理:SmolVLM為開發(fā)者和研究者提供了一個強(qiáng)大的工具,便于進(jìn)行視覺語言處理,無需投入高昂的硬件費用。本地部署:小模型支持在瀏覽器或邊緣設(shè)備上進(jìn)行本地部署,減少推理成本,支持用戶自定義。AI普及化:SmolVLM的發(fā)展有望擴(kuò)大視覺語言模型的使用范圍,復(fù)雜的AI系統(tǒng)更加普及和可訪問,為更廣泛的受眾提供強(qiáng)大的機(jī)器學(xué)習(xí)功能。 
