LMCache Blog – This is the blog of the LMCache community. It provides caching knowledge for your LLM , Accelerating and optimizing your GPU KVcache

GitHub Stars

8,200+

贡献者

350+

PyPI 下载量/月

115K+

社区成员

900+

用 KV Cache 基础设施构建 AI 记忆底座

LMCache 开创了面向大模型推理的 KV Cache 基础设施，将 KV Cache 转化为可在整个集群中存储、压缩、检索和复用的 AI 原生记忆。

AI 也会梦到电子 LMCache吗

Dream

想了解更多部署方式?

兼容性

支持主流推理引擎、硬件平台，并支持可插拔的外部存储后端。

兼容性

支持主流推理引擎、硬件平台，并支持可插拔的外部存储后端。

支持的部署模式

无需改造现有架构，可根据实际推理服务场景选择合适的部署方式。

进程内模式

最轻量的集成方式。LMCache 与推理引擎运行在同一进程内。

服务引擎

一

KV
库

服务引擎

二

KV
库

服务引擎

N

KV
库

LMCache 多进程

LMCache 作为节点级独立服务运行，推理引擎通过 LMCache MP Connector 与其连接。一个 LMCache Server 可同时服务多个推理引擎实例，实现进程隔离、缓存共享与资源独立扩展。

服务引擎

一

服务引擎

二

服务引擎

N

LM缓存服务器

MP 模式是 LMCache 推荐的部署路径，也是未来重点演进方向。

LMCache 核心能力

LMCache 是面向 LLM 推理构建的模块化 KV Cache 层，适用于长上下文、多轮对话和检索增强等重复使用上下文的场景。它帮助团队在 GPU、CPU 内存和外部存储后端之间管理 KV Cache，支持存储、复用、压缩、查找、迁移和观测等能力。

存储

将 KV Cache 持久化到 GPU 显存之外，例如 CPU 内存、本地磁盘或外部后端

复用

在不同请求之间加载已计算过的 KV Cache，减少重复的 prefill 计算

搜索

通过 CacheBlend 查找可复用的 KV Cache 片段，突破精确前缀匹配的限制

压缩

降低 KV Cache 的内存占用，支持更长上下文和更高并发。

迁移

在不同 worker、推理引擎和部署模式之间传输 KV Cache，支持分布式推理。

观测

跟踪服务栈中的缓存行为、存储迁移和复用模式

广泛的生态协作

LMCache 已被全球范围内的基础设施团队、云服务提供商和开源项目用于生产环境。

Nvidia

Dynamo 可与 vLLM 等主流推理引擎以及 LMCache 等开源工具无缝集成，支持更高效的缓存复用，减少重复计算，并更好地应对长上下文和高并发推理场景。

Google Cloud

对于 Google Kubernetes Engine 用户，LMCache 的分层存储方案可以利用节点本地存储提升推理性能，尤其适用于会生成大量 KV Cache 的长系统提示词场景。

CoreWeave

LMCache 与 CoreWeave AI Object Storage 共同构成了紧密集成的缓存系统：LMCache 负责缓存的序列化与协调，CoreWeave AI Object Storage 则提供分布式存储性能支撑，让外部缓存更加高效、顺畅。

Redis

LMCache 通过缓存和复用重复 token 片段对应的 Key-Value（KV）数据，减少冗余计算；Redis 则提供可扩展的实时存储与检索基础设施。二者结合，可以进一步提升推理速度。

Nvidia

Dynamo 可与 vLLM 等主流推理引擎以及 LMCache 等开源工具无缝集成，支持更高效的缓存复用，减少重复计算，并更好地应对长上下文和高并发推理场景。

Google Cloud

对于 Google Kubernetes Engine 用户，LMCache 的分层存储方案可以利用节点本地存储提升推理性能，尤其适用于会生成大量 KV Cache 的长系统提示词场景。

AMD

与 vLLM 集成后，LMCache 在 AMD Instinct MI300X GPU 上为多种社区模型带来 3–10 倍的性能提升，包括 Qwen3、Llama3 和 Qwen-VL 等模型。

CoreWeave

LMCache 与 CoreWeave AI Object Storage 共同构成了紧密集成的缓存系统：LMCache 负责缓存的序列化与协调，CoreWeave AI Object Storage 则提供分布式存储性能支撑，让外部缓存更加高效、顺畅。

Redis

LMCache 通过缓存和复用重复 token 片段对应的 Key-Value（KV）数据，减少冗余计算；Redis 则提供可扩展的实时存储与检索基础设施。二者结合，可以进一步提升推理速度。

PyTorch Foundation

LMCache 是首个开源的高效 Key-Value Cache 解决方案之一，专为大模型推理中的 KV Cache 复用与管理而设计。

Tensormesh

LMCache 架构上的每一次改进，都意味着更高效的缓存管理、更快的推理速度，以及更低的大规模 AI 工作负载运行成本。

由赞助

源于前沿系统研究

源自芝加哥大学团队的系统研究，并持续作为开源项目不断演进。欢迎加入我们，一起构建更高效的 LLM 推理基础设施。

LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference

CacheGen: KV Cache Compression and Streaming for Fast LLM Serving

CacheBlend: Fast LLM Serving for RAG with Cached Knowledge Fusion

资源

从部署指南、社区工具到贡献文档，这里汇集了部署、参与和了解 LMCache 最新进展所需的实用资源。

实践指南

面向不同模型架构、推理引擎和部署环境的 LMCache 实践部署指南。

路线图

了解 LMCache 的季度重点和即将推进的开发里程碑。

贡献指南

无论是修复问题、完善文档、支持新模型，还是帮助其他用户，这里都可以帮你快速开始参与贡献。

社区动态

来自 LMCache 团队和社区贡献者的最新基准测试、版本更新和技术深度文章。

工具

提供计算器和可观测性工具，帮助你规划、部署和优化 KV Cache 基础设施。

快速开始

开始使用

阅读文档，几分钟内完成安装。

加入社区

通过 Slack、GitHub 和 Office Hours 与社区交流。

阅读博客

查看基准测试、教程和版本更新。

GitHub Stars

贡献者

PyPI 下载量/月

社区成员

900+

用 KV Cache 基础设施构建 AI 记忆底座

AI 也会梦到电子 LMCache吗

兼容性

兼容性

支持的部署模式

进程内模式

服务引擎

一

KV库

服务引擎

二

KV库

服务引擎

N

KV库

LMCache 多进程

服务引擎

一

服务引擎

二

服务引擎

N

LM缓存服务器

LMCache 核心能力

存储

复用

搜索

压缩

迁移

观测

广泛的生态协作

Nvidia

Dynamo 可与 vLLM 等主流推理引擎以及 LMCache 等开源工具无缝集成，支持更高效的缓存复用，减少重复计算，并更好地应对长上下文和高并发推理场景。

Nvidia

Dynamo 可与 vLLM 等主流推理引擎以及 LMCache 等开源工具无缝集成，支持更高效的缓存复用，减少重复计算，并更好地应对长上下文和高并发推理场景。

Google Cloud

对于 Google Kubernetes Engine 用户，LMCache 的分层存储方案可以利用节点本地存储提升推理性能，尤其适用于会生成大量 KV Cache 的长系统提示词场景。

AMD

与 vLLM 集成后，LMCache 在 AMD Instinct MI300X GPU 上为多种社区模型带来 3–10 倍的性能提升，包括 Qwen3、Llama3 和 Qwen-VL 等模型。

CoreWeave

LMCache 与 CoreWeave AI Object Storage 共同构成了紧密集成的缓存系统：LMCache 负责缓存的序列化与协调，CoreWeave AI Object Storage 则提供分布式存储性能支撑，让外部缓存更加高效、顺畅。

Redis

LMCache 通过缓存和复用重复 token 片段对应的 Key-Value（KV）数据，减少冗余计算；Redis 则提供可扩展的实时存储与检索基础设施。二者结合，可以进一步提升推理速度。

PyTorch Foundation

LMCache 是首个开源的高效 Key-Value Cache 解决方案之一，专为大模型推理中的 KV Cache 复用与管理而设计。

Tensormesh

LMCache 架构上的每一次改进，都意味着更高效的缓存管理、更快的推理速度，以及更低的大规模 AI 工作负载运行成本。

源于前沿系统研究

LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference

CacheGen: KV Cache Compression and Streaming for Fast LLM Serving

CacheBlend: Fast LLM Serving for RAG with Cached Knowledge Fusion

资源

实践指南

路线图

贡献指南

社区动态

工具

快速开始

开始使用

加入社区

阅读博客

KV
库

KV
库

KV
库