少即是多:通过最少的测试时干预来改进 LLM 推理

发表
Zhen YangZhen Yang 提交
作者: Zhen YangZhen Yang, Mingyang Zhang, Feng Chen, Ganggui Ding, Liang Hou, Xin Tao, Pengfei Wan, Ying-Cong Chen

摘要

AI 生成总结
最小测试时干预 (MTI) 通过选择性地应用无分类器引导和轻量级负提示引导,以最小的开销增强了大型语言模型的推理准确性和稳定性。
大型语言模型(LLM)的最新进展侧重于测试时扩展以通过增加推理计算来改善推理,但这通常以牺牲效率为代价。我们重新审视测试时行为,并揭示了一个简单但未被充分探索的现象:推理不确定性高度局部化——只有一小部分高熵标记主要影响输出正确性。受此启发,我们提出了最小测试时干预(MTI),一个无需训练的框架,以最小的开销提高推理准确性和稳定性。MTI 包括:(i)选择性 CFG 干预,仅在不确定的位置应用分类器自由引导;(ii)轻量级负提示引导,重复使用主模型的 KV 缓存来有效近似无条件解码。MTI 在通用、编码和 STEM 任务中实现了持续的收益——例如,对于 Qwen3-8B-Base,在八个基准上平均提高了 1.35%;对于使用 Qwen3-32B-Reasoning 的 AIME2024,提高了 5%——同时保持了极高的效率。
查看 arXiv 页面查看 PDF

评论

Zhen YangZhen Yang
论文作者
论文提交者

代码是开源的;仓库地址是 https://github.com/EnVision-Research/MTI