⏶9
KVzip: 与查询无关的 KV 缓存压缩与上下文重构
发表
由
Jang-Hyun Kim 提交
作者:
Jang-Hyun Kim,
Jinuk Kim, Sangwoo Kwon, Jae W. Lee, Sangdoo Yun, Hyun Oh Song

摘要
基于 Transformer 的大型语言模型(LLM)在推理过程中将上下文缓存为键值 (KV) 对。随着上下文长度增长,KV 缓存大小随之膨胀,导致显著的内存开销和注意力延迟增加。本文介绍了一种与查询无关的 KV 缓存逐出方法 KVzip,它能够在不同查询中有效重用压缩的 KV 缓存。KVzip 使用底层 LLM 通过缓存的 KV 对重构原始上下文来量化 KV 对的重要性,然后逐出重要性较低的对。大量实证评估表明,KVzip 将 KV 缓存大小减少 3-4 倍,FlashAttention 解码延迟减少约 2 倍,同时在问答、检索、推理和代码理解任务中性能损失可忽略不计。评估涵盖了各种模型,如 LLaMA3.1-8B、Qwen2.5-14B 和 Gemma3-12B,上下文长度最长可达 170K token。KVzip 显著优于现有的与查询相关的 KV 逐出方法,后者在多查询场景下即使在 90% 的缓存预算比率下也会遭受性能下降。
代码:https://github.com/snu-mllab/KVzip