近年來,機器學習模型在視覺和語言任務方面的應用需求日益增長,但大多數模型都需要龐大的計算資源,無法在個人設備上高效運行。尤其是像筆記本電腦、消費級 GPU 和移動設備等小型設備,在處理視覺語言任務時面臨巨大的挑戰。

以 Qwen2-VL 為例,雖然其性能卓越,但對硬件的要求較高,限制了其在實時應用中的可用性。因此,開發出輕量化模型以便于在較低資源下運行,成為了一項重要需求。

Hugging Face 近期發布了 SmolVLM,這是一款專門為設備端推理設計的2B 參數視覺語言模型。SmolVLM 在 GPU 內存使用和令牌生成速度方面的表現超越了其他同類模型。其主要特性是能夠在較小的設備上有效運行,比如筆記本電腦或消費級 GPU,而不會犧牲性能。SmolVLM 在性能和效率之間找到了一個理想的平衡,解決了以往同類模型難以克服的問題。

與 Qwen2-VL2B 相比,SmolVLM 生成令牌的速度快了7.5到16倍,歸功于其優化的架構,使得輕量級推理成為可能。這一效率不僅為最終用戶帶來了實用的好處,也極大提升了使用體驗。

從技術角度來看,SmolVLM 具有優化的架構,支持高效的設備端推理。用戶甚至可以在 Google Colab 上輕松進行微調,極大地降低了試驗和開發的門檻。

由于內存占用小,SmolVLM 能夠在之前無法承載同類模型的設備上順利運行。在對50幀 YouTube 視頻進行測試時,SmolVLM 表現出色,得分達到27.14%,并在資源消耗上優于兩款更為消耗資源的模型,顯示了其強大的適應能力和靈活性。

SmolVLM 在視覺語言模型領域具有重要的里程碑意義。它的推出使得復雜的視覺語言任務能夠在日常設備上運行,填補了當前 AI 工具中的一項重要空白。

SmolVLM 不僅在速度和效率方面表現優異,還為開發者和研究者提供了一個強大的工具,以便于進行視覺語言處理,而無需投入高昂的硬件費用。隨著 AI 技術的不斷普及,像 SmolVLM 這樣的模型將使得強大的機器學習能力變得更加觸手可及。

demo:https://huggingface.co/spaces/HuggingFaceTB/SmolVLM

https://huggingface.co/spaces/HuggingFaceTB/SmolVLM

劃重點:

?? SmolVLM 是 Hugging Face 推出的專為設備端推理設計的2B 參數視覺語言模型,運行高效且無需高端硬件。

? 它的令牌生成速度是同類模型的7.5到16倍,極大提高了用戶的體驗和應用效率。

?? 在測試中,SmolVLM 展現了強大的適應能力,在沒有視頻數據訓練的情況下仍能取得不錯的評分。