vLLM團(tuán)隊發(fā)布首個“全模態(tài)”推理框架vLLM-Omni,將文本、圖像、音頻、視頻的統(tǒng)一生成從概念驗證變成可落地代碼。新框架已上線GitHub與ReadTheDocs,開發(fā)者可立即pip安裝并調(diào)用。
解耦流水線架構(gòu)
- 模態(tài)編碼器:ViT、Whisper等負(fù)責(zé)把視覺、語音轉(zhuǎn)為中間特征
- LLM核心:繼續(xù)沿用vLLM自回歸引擎,承擔(dān)思考、規(guī)劃與對話
- 模態(tài)生成器:DiT、Stable Diffusion等擴(kuò)散模型解碼輸出,支持圖像、音頻、視頻同步生成
框架把三段組件視為獨立微服務(wù),可在不同GPU或節(jié)點間調(diào)度,資源按需彈性伸縮——圖像生成高峰時橫向擴(kuò)容DiT,文本推理低谷時收縮LLM,顯存利用率提升最高40%。
性能與兼容性
vLLM-Omni提供Python裝飾器@omni_pipeline,三行代碼即可把原有單模態(tài)模型拼裝成多模態(tài)應(yīng)用。官方基準(zhǔn)顯示,在8×A100集群運行10億參數(shù)“文本+圖像”模型,吞吐比傳統(tǒng)串行方案提高2.1倍,端到端延遲下降35%。
開源與路線圖
GitHub倉庫已放出完整示例與Docker Compose腳本,支持PyTorch2.4+和CUDA12.2。團(tuán)隊透露,2026Q1將加入視頻DiT與語音Codec模型,并計劃提供Kubernetes CRD,方便企業(yè)在私有云一鍵部署。
行業(yè)觀點
業(yè)內(nèi)人士認(rèn)為,vLLM-Omni把異構(gòu)模型納入同一數(shù)據(jù)流,有望降低多模態(tài)應(yīng)用落地門檻,但不同硬件間的負(fù)載均衡與緩存一致性仍是生產(chǎn)環(huán)境挑戰(zhàn)。隨著框架逐漸成熟,AI初創(chuàng)公司可更便宜地構(gòu)建“文本-圖像-視頻”統(tǒng)一平臺,而不必分別維護(hù)三條推理鏈路。
項目地址:https://github.com/vllm-project/vllm-omni

