⏶16

推理路径压缩：压缩生成轨迹以实现高效LLM推理

05月20日发表

05月21日由 Jiwon Song 提交

作者: Jiwon Song, Dongwon Jo, Yulhwa Kim, Jae-Joon Kim

摘要

最近专注于推理的语言模型通过在生成最终答案之前生成冗长的中间推理路径来实现高精度。虽然这种方法在解决需要逻辑思维的问题方面有效，但长的推理路径会显著增加内存使用量和 token 生成的吞吐量，限制了此类模型的实际部署。我们提出了推理路径压缩（Reasoning Path Compression, RPC），这是一种无需训练的方法，通过利用推理路径的语义稀疏性来加速推理。RPC 通过保留接收高重要性分数的 KV 缓存来周期性地压缩 KV 缓存，这些重要性分数是使用由最近生成的查询组成的选择窗口计算的。实验表明，与使用完整 KV 缓存进行推理相比，RPC 将 QwQ-32B 的生成吞吐量提高了高达 1.60 倍，同时在 AIME 2024 基准测试中的准确率下降了 1.2%。我们的研究结果表明，可以有效地利用推理痕迹中的语义稀疏性进行压缩，为推理 LLM 的高效部署提供了切实可行的途径。我们的代码可在 https://github.com/jiwonsong-dev/ReasoningPathCompression 获取。

查看 arXiv 页面查看 PDF

Jiwon Song

论文作者

论文提交者

推理路径压缩 (RPC) 是一种无需训练的方法，通过利用生成推理路径的语义稀疏性来加速推理语言模型的推理过程。它提高了吞吐量并减少了内存使用，同时准确率下降最小。

推理路径压缩：压缩生成轨迹以实现高效LLM推理

摘要

评论