通过弹性推理的可扩展思维链

发表
Yuhui XuYuhui Xu 提交
作者: Yuhui XuYuhui Xu, Hanze DongHanze Dong, Lei Wang, DoyenDoyen Sahoo, JunnanLiJunnan Li, Caiming XiongCaiming Xiong

摘要

大型推理模型 (LRM) 通过生成扩展的思维链 (CoT),在复杂任务上取得了显著进展。然而,其不受控制的输出长度对实际部署带来了严峻挑战,因为在推理时对 tokens、延迟或计算资源的预算有严格限制。我们提出了 Elastic Reasoning (弹性推理),这是一个用于可伸缩思维链的新颖框架,它明确地将推理分为两个阶段——思考和解决方案——并为每个阶段独立分配预算。在测试时,Elastic Reasoning 优先确保解决方案片段的完整性,从而在紧张的资源限制下显著提高可靠性。为了训练对截断思考具有鲁棒性的模型,我们引入了一种轻量级的预算约束推出策略,该策略集成到 GRPO 中,用于教导模型在思考过程被缩短时进行自适应推理,并能有效泛化到未曾见过的预算约束而无需额外训练。在数学 (AIME, MATH500) 和编程 (LiveCodeBench, Codeforces) 基准测试上的实验结果表明,Elastic Reasoning 在严格的预算约束下表现出色,同时产生的训练成本显著低于基线方法。值得注意的是,即使在无约束设置下,我们的方法也能生成更简洁有效的推理。Elastic Reasoning 为解决规模化可控推理这一紧迫挑战提供了一种原则性且实用的解决方案。
查看 arXiv 页面查看 PDF

评论

Yuhui XuYuhui Xu
论文作者
论文提交者

本文提出 Elastic Reasoning(弹性推理),一种用于控制推理模型长度的高效且有效的方法,可在测试时实现可扩展的性能。我们的模型 E1-Math 和 E1-Code 在 AIME 和 LiveCodeBench 基准测试上表现出色。