在近日舉行的技術發(fā)布會上,vLLM 團隊正式推出了 vLLM-Omni,這是一個面向全模態(tài)(omni-modality)模型的推理框架。這一新框架旨在簡化多模態(tài)推理的過程,并為新一代能夠理解和生成多種形式內(nèi)容的模型提供強有力的支持。與傳統(tǒng)的文本輸入輸出模型不同,vLLM-Omni 可以處理文本、圖像、音頻和視頻等多種輸入輸出類型。

自項目啟動以來,vLLM 團隊一直致力于為大型語言模型(LLM)提供高效的推理能力,尤其是在吞吐量和顯存使用方面。然而,現(xiàn)代的生成模型已經(jīng)超越了單一的文本交互,需求多樣化的推理能力逐漸成為趨勢。vLLM-Omni 正是在這一背景下應運而生,它是首批支持全模態(tài)推理的開源框架之一。

vLLM-Omni 采用了一種全新的解耦流水線架構,通過對數(shù)據(jù)流的重新設計,能夠高效地將不同階段的推理任務進行分配和協(xié)調(diào)。在這一架構中,推理請求主要經(jīng)過三類關鍵組件:模態(tài)編碼器、LLM 核心和模態(tài)生成器。模態(tài)編碼器負責將多模態(tài)輸入轉換為向量表示,LLM 核心則處理文本生成和多輪對話,而模態(tài)生成器則用于輸出圖像、音頻或視頻內(nèi)容。

這一創(chuàng)新架構的推出,將為工程團隊帶來諸多便利,允許他們在不同階段進行獨立的資源擴展與部署設計。此外,團隊可以根據(jù)實際業(yè)務需求調(diào)整資源分配,從而提高整體工作效率。

GitHub :https://github.com/vllm-project/vllm-omni

劃重點:

?? vLLM-Omni 是一個全新的推理框架,支持多模態(tài)模型處理文本、圖像、音頻和視頻等多種內(nèi)容。

?? 該框架采用解耦流水線架構,提高了推理效率,并允許針對不同任務進行資源優(yōu)化。

?? 開源代碼和文檔已上線,歡迎開發(fā)者參與這一新技術的探索與應用。