学习一个持续思考令牌以增强测试时扩展性

发表
Liran RingelLiran Ringel 提交
作者: Liran RingelLiran Ringel, Elad TolochinskyElad Tolochinsky, Yaniv Romano

摘要

测试时缩放已成为一种有效方法,通过在推理时利用额外计算来提高语言模型性能。最近的研究表明,覆盖“思考结束”标记(例如,将“</think>”替换为“Wait”)可以延长推理步骤并提高准确性。在这项工作中,我们探索是否可以学习一个专用的“继续思考”标记来触发扩展推理。我们用一个学习到的“<|continue-thinking|>”标记增强了DeepSeek-R1的蒸馏版本,仅通过强化学习训练其嵌入,同时保持模型权重冻结。我们的实验表明,与基线模型和使用固定标记(例如“Wait”)进行预算强制的测试时缩放方法相比,这个学习到的标记在标准数学基准测试中取得了更高的准确性。特别是,我们观察到在固定标记方法提高基线模型准确性的情况下,我们的方法实现了显著更大的改进。例如,在GSM8K基准测试中,固定标记方法带来了1.3%的绝对准确率提升,而我们学习到的标记方法比不使用预算强制的基线模型提升了4.2%。
查看 arXiv 页面查看 PDF
学习一个持续思考令牌以增强测试时扩展性

评论

Liran RingelLiran Ringel
论文作者
论文提交者
此评论已隐藏。