KV 缓存引导:在小型语言模型中诱导推理能力

发表
Yuki AsanoYuki Asano 提交
作者: Max BelitskyMax Belitsky, DawidDawid J. Kopiczko, Michael DorkenwaldMichael Dorkenwald, M. Jehanzeb Mirza, Cees G. M. Snoek, Yuki M. Asano

摘要

我们提出缓存转向(cache steering),这是一种轻量级方法,通过对键值缓存直接应用一次性干预,实现对语言模型的隐式转向。为了验证其有效性,我们将缓存转向应用于小型语言模型,以诱导其进行思维链(chain-of-thought)推理。我们的方法利用GPT-4o生成的推理轨迹来构建转向向量,从而使模型行为转向更明确、多步的推理,而无需进行微调或提示修改。在各种推理基准上的实验评估表明,缓存转向提高了模型推理的定性结构和定量任务性能。与需要持续干预的现有激活转向技术相比,我们的一次性缓存转向在超参数稳定性、推理效率和易于集成方面具有显著优势,使其成为一种更稳健、更实用的受控生成解决方案。
查看 arXiv 页面查看 PDF
KV 缓存引导:在小型语言模型中诱导推理能力

评论

Yuki AsanoYuki Asano
论文提交者

论文提出一种替代激活引导的方法;转而引导 LLM 内部的 kv-缓存,以在小型 LLM 中诱导推理

Max BelitskyMax Belitsky
论文作者

代码:https://github.com/MaxBelitsky/cache-steering

Dan EdensDan Edens

太棒了。各位做得好。