⏶76

SimpleTIR：用于多轮工具集成推理的端到端强化学习

09月02日发表

09月03日由 Qian Liu 提交

作者: Zhenghai Xue, Longtao Zheng, Qian Liu, Yingru Li, Xiaosen Zheng, Zejun Ma, Bo An

摘要

大型语言模型（LLMs）可以通过与外部工具交互显著提高其推理能力，这种范式被称为工具集成推理（TIR）。然而，使用强化学习（RL）将TIR扩展到多轮场景常常受到训练不稳定和性能崩溃的阻碍。我们发现这种不稳定性主要是由外部工具反馈的分布漂移引起的，导致生成低概率的token。这个问题在连续的轮次中会加剧，导致灾难性的梯度范数爆炸，扰乱训练过程。为了解决这个挑战，我们引入了SimpleTIR，一个即插即用的算法，用于稳定多轮TIR训练。其核心策略是识别和过滤掉包含空转（即既不产生代码块也不产生最终答案的轮次）的轨迹。通过从策略更新中移除这些有问题的轨迹，SimpleTIR有效地阻止了有害的高幅度梯度，从而稳定了学习动态。大量的实验表明，SimpleTIR在具有挑战性的数学推理基准上取得了最先进的性能，尤其是在从Qwen2.5-7B基础模型开始时，将AIME24分数从22.1的纯文本基线提高到50.5。此外，通过避免监督微调的限制，SimpleTIR鼓励模型发现多样化和复杂的推理模式，例如自我纠正和交叉验证。

查看 arXiv 页面查看 PDF

Qian Liu

论文作者

论文提交者

🎉 SimpleTIR 论文现已发布！

SimpleTIR 的官方研究论文已经发布！这项工作推进了具身多轮强化学习与工具使用的端到端研究。

📄 资源：

博客：https://simpletir.notion.site/report (2025 年 7 月 2 日)
论文： https://arxiv.org/abs/2509.02479
模型： https://huggingface.co/collections/ZhenghaiXue/simpletir-686ce09ae6e1db33b375f03d
代码： https://github.com/ltzheng/SimpleTIR

Yury Panikov

谢谢

SimpleTIR：用于多轮工具集成推理的端到端强化学习

摘要

评论