⏶2
Control-R:迈向可控的测试时缩放
发表
由
Di Zhang 提交

作者:
Di Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li,
Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou


摘要
本文旨在通过引入推理控制字段(Reasoning Control Fields, RCF)——一种新颖的测试时方法,该方法注入结构化控制信号以从树搜索的角度指导推理——来解决大型推理模型(LRMs)在长链式思维(CoT)推理中存在的“思考不足”和“思考过度”挑战。RCF使模型能够在解决复杂任务时根据给定的控制条件调整推理努力。此外,我们提出了Control-R-4K数据集,该数据集包含标注了详细推理过程和相应控制字段的挑战性问题。为了进一步增强推理控制,我们提出了一种条件蒸馏微调(Conditional Distillation Finetuning, CDF)方法,该方法训练模型——特别是Control-R-32B——以在测试时有效调整推理努力。在AIME2024和MATH500等基准测试上的实验结果表明,我们的方法在32B规模上实现了最先进的性能,同时实现了可控的长CoT推理过程(L-CoT)。总的来说,这项工作为可控的测试时规模化推理引入了一个有效的范式。
本文旨在通过引入推理控制场(RCF)来解决大型推理模型(LRMs)在长链式思考(CoT)推理中思考不足和过度思考的挑战——RCF是一种新颖的测试时方法,它注入结构化控制信号,从树搜索的角度指导推理。RCF 使模型在解决复杂任务时能够根据给定的控制条件调整推理努力。此外,我们还提出了Control-R-4K数据集,该数据集包含标注了详细推理过程和相应控制场的挑战性问题。为了进一步增强推理控制,我们提出了一种条件蒸馏微调(CDF)方法,该方法训练模型——特别是Control-R-32B——以在测试时有效调整推理努力。在AIME2024和MATH500等基准测试上的实验结果表明,我们的方法在32B规模下实现了最先进的性能,同时实现了可控的长链式思考(L-CoT)推理过程。总的来说,这项工作为可控的测试时规模化推理引入了一种有效的范式。