SimpleTIR:用于多轮工具集成推理的端到端强化学习

发表
Qian LiuQian Liu 提交
作者: Zhenghai XueZhenghai Xue, Longtao ZhengLongtao Zheng, Qian LiuQian Liu, Yingru LiYingru Li, Xiaosen ZhengXiaosen Zheng, Zejun Ma, Bo An

摘要

大型语言模型(LLMs)可以通过与外部工具交互显著提高其推理能力,这种范式被称为工具集成推理(TIR)。然而,使用强化学习(RL)将TIR扩展到多轮场景常常受到训练不稳定和性能崩溃的阻碍。我们发现这种不稳定性主要是由外部工具反馈的分布漂移引起的,导致生成低概率的token。这个问题在连续的轮次中会加剧,导致灾难性的梯度范数爆炸,扰乱训练过程。为了解决这个挑战,我们引入了SimpleTIR,一个即插即用的算法,用于稳定多轮TIR训练。其核心策略是识别和过滤掉包含空转(即既不产生代码块也不产生最终答案的轮次)的轨迹。通过从策略更新中移除这些有问题的轨迹,SimpleTIR有效地阻止了有害的高幅度梯度,从而稳定了学习动态。大量的实验表明,SimpleTIR在具有挑战性的数学推理基准上取得了最先进的性能,尤其是在从Qwen2.5-7B基础模型开始时,将AIME24分数从22.1的纯文本基线提高到50.5。此外,通过避免监督微调的限制,SimpleTIR鼓励模型发现多样化和复杂的推理模式,例如自我纠正和交叉验证。
查看 arXiv 页面查看 PDF
SimpleTIR:用于多轮工具集成推理的端到端强化学习

评论

Qian LiuQian Liu
论文作者
论文提交者

🎉 SimpleTIR 论文现已发布!

SimpleTIR 的官方研究论文已经发布!这项工作推进了具身多轮强化学习与工具使用的端到端研究。

📄 资源:

Yury PanikovYury Panikov

谢谢