快手近日正式發布其新一代旗艦多模態模型 Keye-VL-671B-A37B,并同步開放代碼。這一模型以其 “善看會想” 的特性,在通用視覺理解、視頻分析和數學推理等多項核心 benchmark 中表現突出,進一步鞏固了快手在人工智能領域的技術實力。

Keye-VL-671B-A37B 的設計理念在于實現更高層次的多模態理解和復雜推理。該模型在基礎模型的強大通用能力之上,針對視覺感知、跨模態對齊及復雜推理鏈路進行了系統升級,從而提升了其在各種場景下的響應準確性和穩定性。這意味著,無論是日常應用還是高難度任務,Keye-VL-671B-A37B 都能提供更為精準的結果。

在技術架構方面,Keye-VL-671B-A37B 采用 DeepSeek-V3-Terminus 作為大語言模型基座,并通過 MLP 層與視覺模型 KeyeViT 相連接,后者則是基于 Keye-VL-1.5進行初始化。模型的預訓練過程分為三個階段,以系統性地構建其多模態理解與推理能力。通過嚴格篩選的300B 高質量預訓練數據,Keye-VL-671B-A37B 在確保視覺理解能力扎實的同時,控制了計算成本。

具體訓練流程包括凍結視覺與語言模型參數,進行初步對齊訓練,接著開放全部參數進行全面預訓練,最后在更高質量的數據上進行退火訓練,顯著提升模型的細粒度感知能力。此外,模型的后訓練過程涵蓋監督微調、冷啟動和強化學習等步驟,訓練任務涵蓋視覺問答、圖表理解、富文本 OCR 等領域。

快手表示,未來 Keye-VL 將持續提升基礎模型能力,同時進一步融合多模態 Agent 能力,向更 “會用工具、能解復雜問題” 的智能形態發展。模型的多輪工具調用能力將被強化,使其在實際任務中能夠自主調用外部工具,完成復雜的搜索、推理和信息整合。此外,Keye-VL 還將在 “think with image” 和 “think with video” 等關鍵方向上深入探索,使模型不僅能理解圖像與視頻,還能圍繞這些內容進行深度思考與鏈式推理。

通過基礎能力與 Agent 能力的雙輪驅動,快手的 Keye-VL 目標是不斷拓展多模態智能的上限,邁向更通用、更可靠和更強推理能力的下一代多模態系統。這一創新將為多模態 AI 的發展帶來新的機遇與挑戰。