⏶24
VeriThinker:学习验证让推理模型更高效
发表
由
Zigeng Chen 提交

作者:
Zigeng Chen, Xinyin Ma, Gongfan Fang, Ruonan Yu, Xinchao Wang

摘要
大型推理模型(LRM)擅长使用思维链(CoT)推理处理复杂任务。然而,它们过度思考的倾向导致推理链不必要地冗长,从而大幅增加了推理成本。为了缓解这个问题,我们引入了 VeriThinker,一种新颖的 CoT 压缩方法。与直接使用合成的简洁 CoT 数据对原始推理任务上的 LRM 进行微调的传统方法不同,我们创新性地仅通过辅助验证任务对模型进行微调。通过训练 LRM 精确验证 CoT 解法的正确性,LRM 本身对后续自反思步骤的必要性会变得更加辨别,从而有效抑制过度思考。大量实验验证了 VeriThinker 能够显著减少推理链长度,同时保持甚至略微提高准确性。当应用于 DeepSeek-R1-Distill-Qwen-7B 时,我们的方法在 MATH500 上将推理 token 从 3790 减少到 2125,同时准确性提高了 0.8%(从 94.0% 到 94.8%);在 AIME25 上,token 从 14321 减少到 10287,准确性提高了 2.1%(从 38.7% 到 40.8%)。此外,我们的实验表明,VeriThinker 还可以零样本泛化到推测性推理。代码可在 https://github.com/czg1225/VeriThinker 获取。
代码:https://github.com/czg1225/VeriThinker
模型:https://huggingface.co/Zigeng/R1-VeriThinker-7B
数据集:https://huggingface.co/datasets/Zigeng/CoT-Verification-340k