月之暗面科技有限公司與清華大學MADSys實驗室聯合發布了一項名為Mooncake的開源項目,旨在共建以KVCache為中心的大模型推理架構。2024年6月,雙方曾聯合發布Kimi底層的Mooncake推理系統設計方案,該方案基于PD分離和以存換算架構,顯著提升了推理吞吐量,受到業界廣泛關注。
Mooncake項目從論文延伸而來,以超大規模KVCache緩存池為中心,通過以存換算的創新理念減少算力開銷,提升推理吞吐量。項目采用分階段開源方式,逐步開源高性能KVCache多級緩存Mooncake Store的實現,并針對各類推理引擎和底層存儲/傳輸資源進行兼容。目前,傳輸引擎Transfer Engine部分已在GitHub全球開源。
月之暗面Kimi工程副總裁許欣然表示,通過與清華大學MADSys實驗室的緊密合作,共同打造了分離式大模型推理架構Mooncake,實現了推理資源的極致優化。Mooncake不僅提升了Kimi的用戶體驗和降低了成本,還為處理長文本和高并發需求提供了有效的解決方案。公司相信,通過與產學研機構的開源合作,可以推動整個行業向更高效的推理平臺方向發展,并邀請更多企業和研究機構加入Mooncake項目共建,共同探索更高效和先進的模型推理系統架構創新,讓基于大模型技術的AI助手等產品惠及更廣泛人群。
項目地址:https://github.com/kvcache-ai/Mooncake

