Control-R:迈向可控的测试时缩放

发表
Di ZhangDi Zhang 提交
作者: Di ZhangDi Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo WuJianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou

摘要

本文旨在通过引入推理控制字段(Reasoning Control Fields, RCF)——一种新颖的测试时方法,该方法注入结构化控制信号以从树搜索的角度指导推理——来解决大型推理模型(LRMs)在长链式思维(CoT)推理中存在的“思考不足”和“思考过度”挑战。RCF使模型能够在解决复杂任务时根据给定的控制条件调整推理努力。此外,我们提出了Control-R-4K数据集,该数据集包含标注了详细推理过程和相应控制字段的挑战性问题。为了进一步增强推理控制,我们提出了一种条件蒸馏微调(Conditional Distillation Finetuning, CDF)方法,该方法训练模型——特别是Control-R-32B——以在测试时有效调整推理努力。在AIME2024和MATH500等基准测试上的实验结果表明,我们的方法在32B规模上实现了最先进的性能,同时实现了可控的长CoT推理过程(L-CoT)。总的来说,这项工作为可控的测试时规模化推理引入了一个有效的范式。
查看 arXiv 页面查看 PDF

评论

Di ZhangDi Zhang
论文作者
论文提交者

本文旨在通过引入推理控制场(RCF)来解决大型推理模型(LRMs)在长链式思考(CoT)推理中思考不足和过度思考的挑战——RCF是一种新颖的测试时方法,它注入结构化控制信号,从树搜索的角度指导推理。RCF 使模型在解决复杂任务时能够根据给定的控制条件调整推理努力。此外,我们还提出了Control-R-4K数据集,该数据集包含标注了详细推理过程和相应控制场的挑战性问题。为了进一步增强推理控制,我们提出了一种条件蒸馏微调(CDF)方法,该方法训练模型——特别是Control-R-32B——以在测试时有效调整推理努力。在AIME2024和MATH500等基准测试上的实验结果表明,我们的方法在32B规模下实现了最先进的性能,同时实现了可控的长链式思考(L-CoT)推理过程。总的来说,这项工作为可控的测试时规模化推理引入了一种有效的范式。