⏶19
带 KV 缓存压缩的推理时超缩放
发表
由
Piotr Nawrot 提交
作者: Adrian Łańcucki, Konrad Staniszewski, Piotr Nawrot, Edoardo M. Ponti
摘要
推理时间扩展通过生成更长或更并行的序列来提高推理准确性,但这会牺牲效率。然而,在 Transformer LLM 中,生成成本受键值(KV)缓存大小的限制,而非生成令牌的数量。因此,我们探索推理时间超扩展:通过压缩 KV 缓存,我们可以在相同的计算预算内生成更多令牌,并进一步提高扩展推理的准确性。然而,这种方法的成功取决于压缩方法即使在高压缩比下也能保持准确性的能力。为了使超扩展实用化,我们引入了动态内存稀疏化 (DMS),这是一种用于稀疏化 KV 缓存的新方法,仅需 1K 训练步骤即可实现 8 倍压缩,同时保持比无训练稀疏注意力更好的准确性。DMS 不会过早丢弃缓存令牌,而是延迟令牌的驱逐,隐式合并表示并保留关键信息。我们展示了 DMS 在多个 LLM 系列上的推理时间超扩展的有效性,表明它在可比的推理运行时和内存负载下提高了准确性。例如,我们平均将 Qwen-R1 32B 在 AIME 24 上提高了 9.1 分,在 GPQA 上提高了 7.6 分,在 LiveCodeBench 上提高了 9.6 分,适用于不同的计算预算。
摘要:推理时缩放通过生成更长或更并行的序列来权衡效率以提高推理准确性。然而,在 Transformer LLM 中,生成成本受限于键值(KV)缓存的大小,而非生成令牌的数量。因此,我们探索推理时超缩放:通过压缩 KV 缓存,我们可以在相同的计算预算内生成更多令牌,并进一步提高缩放推理的准确性。然而,这种方法的成功取决于压缩方法即使在高压缩率下也能保持准确性的能力。为了使超缩放实用,我们引入了动态内存稀疏化(DMS),这是一种新颖的 KV 缓存稀疏化方法,仅需 1K 训练步骤即可实现 8 倍压缩,同时保持比无训练稀疏注意力更好的准确性。DMS 不会过早丢弃缓存的令牌,而是延迟令牌逐出,隐式合并表示并保留关键信息。我们在多个 LLM 系列上展示了使用 DMS 的推理时超缩放的有效性,表明它在可比的推理运行时间和内存负载下提高了准确性。例如,我们平均将 Qwen-R1 32B 在 AIME 24 上提高 9.1 点,GPQA 上提高 7.6 点,LiveCodeBench 上提高 9.6 点,而计算预算保持不变。