跳到内容
文档
资源
社区
博客
演示
联系我们
X
Search
en
GitHub Stars
8,200+
Join Github
贡献者
350+
了解更多
PyPI 下载量/月
115K+
GitHub
社区成员
900+
Join Slack
用 KV Cache 基础设施构建 AI 记忆底座
LMCache 开创了面向大模型推理的 KV Cache 基础设施,将 KV Cache 转化为可在整个集群中存储、压缩、检索和复用的 AI 原生记忆。
AI
也会梦到电子
LMCache吗
Dream
Github
阅读文档
想了解更多部署方式?
查看演示
生态集成
兼容性
支持主流推理引擎、硬件平台,并支持可插拔的外部存储后端。
推理引擎
存储厂商
主流编排系统
GPU 厂商
推理服务提供商
研究方向
阅读文档
生态集成
兼容性
支持主流推理引擎、硬件平台,并支持可插拔的外部存储后端。
主流编排系统
推理服务提供商
存储厂商
推理引擎
GPU 厂商
研究方向
阅读文档
系统架构
支持的部署模式
无需改造现有架构,可根据实际推理服务场景选择合适的部署方式。
进程内模式
最轻量的集成方式。LMCache 与推理引擎运行在同一进程内。
服务引擎
一
KV
库
服务引擎
二
KV
库
服务引擎
N
KV
库
LMCache 多进程
LMCache 作为节点级独立服务运行,推理引擎通过 LMCache MP Connector 与其连接。一个 LMCache Server 可同时服务多个推理引擎实例,实现进程隔离、缓存共享与资源独立扩展。
服务引擎
一
服务引擎
二
服务引擎
N
LM缓存服务器
MP 模式是 LMCache 推荐的部署路径,也是未来重点演进方向。
阅读文档
工作原理
LMCache
核心能力
LMCache 是面向 LLM 推理构建的模块化 KV Cache 层,适用于长上下文、多轮对话和检索增强等重复使用上下文的场景。它帮助团队在 GPU、CPU 内存和外部存储后端之间管理 KV Cache,支持存储、复用、压缩、查找、迁移和观测等能力。
存储
将 KV Cache 持久化到 GPU 显存之外,例如 CPU 内存、本地磁盘或外部后端
了解更多
复用
在不同请求之间加载已计算过的 KV Cache,减少重复的 prefill 计算
了解更多
搜索
通过 CacheBlend 查找可复用的 KV Cache 片段,突破精确前缀匹配的限制
了解更多
压缩
降低 KV Cache 的内存占用,支持更长上下文和更高并发。
了解更多
迁移
在不同 worker、推理引擎和部署模式之间传输 KV Cache,支持分布式推理。
了解更多
观测
跟踪服务栈中的缓存行为、存储迁移和复用模式
了解更多
生态合作
广泛的生态协作
LMCache 已被全球范围内的基础设施团队、云服务提供商和开源项目用于生产环境。
Tab #1
Tab #2
Tab #3
Tab #4
Tab #5
Tab #6
Tab #7
Nvidia
Dynamo 可与 vLLM 等主流推理引擎以及 LMCache 等开源工具无缝集成,支持更高效的缓存复用,减少重复计算,并更好地应对长上下文和高并发推理场景。
阅读文章
Google Cloud
对于 Google Kubernetes Engine 用户,LMCache 的分层存储方案可以利用节点本地存储提升推理性能,尤其适用于会生成大量 KV Cache 的长系统提示词场景。
阅读文章
AMD
与 vLLM 集成后,LMCache 在 AMD Instinct MI300X GPU 上为多种社区模型带来 3–10 倍的性能提升,包括 Qwen3、Llama3 和 Qwen-VL 等模型。
阅读文章
CoreWeave
LMCache 与 CoreWeave AI Object Storage 共同构成了紧密集成的缓存系统:LMCache 负责缓存的序列化与协调,CoreWeave AI Object Storage 则提供分布式存储性能支撑,让外部缓存更加高效、顺畅。
阅读文章
Redis
LMCache 通过缓存和复用重复 token 片段对应的 Key-Value(KV)数据,减少冗余计算;Redis 则提供可扩展的实时存储与检索基础设施。二者结合,可以进一步提升推理速度。
阅读文章
PyTorch Foundation
LMCache 是首个开源的高效 Key-Value Cache 解决方案之一,专为大模型推理中的 KV Cache 复用与管理而设计。
阅读文章
Tensormesh
LMCache 架构上的每一次改进,都意味着更高效的缓存管理、更快的推理速度,以及更低的大规模 AI 工作负载运行成本。
阅读文章
Nvidia
Google Cloud
AMD
CoreWeave
Redis
PyTorch Foundation
Tensormesh
Nvidia
Dynamo 可与 vLLM 等主流推理引擎以及 LMCache 等开源工具无缝集成,支持更高效的缓存复用,减少重复计算,并更好地应对长上下文和高并发推理场景。
阅读文章
Google Cloud
对于 Google Kubernetes Engine 用户,LMCache 的分层存储方案可以利用节点本地存储提升推理性能,尤其适用于会生成大量 KV Cache 的长系统提示词场景。
阅读文章
AMD
与 vLLM 集成后,LMCache 在 AMD Instinct MI300X GPU 上为多种社区模型带来 3–10 倍的性能提升,包括 Qwen3、Llama3 和 Qwen-VL 等模型。
阅读文章
CoreWeave
LMCache 与 CoreWeave AI Object Storage 共同构成了紧密集成的缓存系统:LMCache 负责缓存的序列化与协调,CoreWeave AI Object Storage 则提供分布式存储性能支撑,让外部缓存更加高效、顺畅。
阅读文章
Redis
LMCache 通过缓存和复用重复 token 片段对应的 Key-Value(KV)数据,减少冗余计算;Redis 则提供可扩展的实时存储与检索基础设施。二者结合,可以进一步提升推理速度。
阅读文章
PyTorch Foundation
LMCache 是首个开源的高效 Key-Value Cache 解决方案之一,专为大模型推理中的 KV Cache 复用与管理而设计。
阅读文章
Tensormesh
LMCache 架构上的每一次改进,都意味着更高效的缓存管理、更快的推理速度,以及更低的大规模 AI 工作负载运行成本。
阅读文章
博客
由 赞助
研究基础
源于前沿系统研究
源自芝加哥大学团队的系统研究,并持续作为开源项目不断演进。欢迎加入我们,一起构建更高效的 LLM 推理基础设施。
LMCache:
An Efficient KV Cache Layer for Enterprise-Scale LLM Inference
CacheGen:
KV Cache Compression and Streaming for Fast LLM Serving
CacheBlend:
Fast LLM Serving for RAG with Cached Knowledge Fusion
资源探索
资源
从部署指南、社区工具到贡献文档,这里汇集了部署、参与和了解 LMCache 最新进展所需的实用资源。
实践指南
面向不同模型架构、推理引擎和部署环境的 LMCache 实践部署指南。
查看指南
路线图
了解 LMCache 的季度重点和即将推进的开发里程碑。
查看路线图
贡献指南
无论是修复问题、完善文档、支持新模型,还是帮助其他用户,这里都可以帮你快速开始参与贡献。
开始贡献
社区动态
来自 LMCache 团队和社区贡献者的最新基准测试、版本更新和技术深度文章。
阅读博客
工具
提供计算器和可观测性工具,帮助你规划、部署和优化 KV Cache 基础设施。
探索工具
快速开始
开始使用
阅读文档,几分钟内完成安装。
文档
加入社区
通过 Slack、GitHub 和 Office Hours 与社区交流。
社区
阅读博客
查看基准测试、教程和版本更新。
博客
Esc
未找到结果。
请尝试不同的搜索词。
开始输入以搜索…
Ctrl
K
打开 ·
Esc
关闭
文档
资源
社区
博客
演示
联系我们
文档
资源
社区
博客
演示
联系我们
GitHub
en
加入我们: