⏶76
SimpleTIR:用于多轮工具集成推理的端到端强化学习
发表
由
Qian Liu 提交

作者:
Zhenghai Xue,
Longtao Zheng,
Qian Liu,
Yingru Li,
Xiaosen Zheng, Zejun Ma, Bo An



摘要
大型语言模型(LLMs)可以通过与外部工具交互显著提高其推理能力,这种范式被称为工具集成推理(TIR)。然而,使用强化学习(RL)将TIR扩展到多轮场景常常受到训练不稳定和性能崩溃的阻碍。我们发现这种不稳定性主要是由外部工具反馈的分布漂移引起的,导致生成低概率的token。这个问题在连续的轮次中会加剧,导致灾难性的梯度范数爆炸,扰乱训练过程。为了解决这个挑战,我们引入了SimpleTIR,一个即插即用的算法,用于稳定多轮TIR训练。其核心策略是识别和过滤掉包含空转(即既不产生代码块也不产生最终答案的轮次)的轨迹。通过从策略更新中移除这些有问题的轨迹,SimpleTIR有效地阻止了有害的高幅度梯度,从而稳定了学习动态。大量的实验表明,SimpleTIR在具有挑战性的数学推理基准上取得了最先进的性能,尤其是在从Qwen2.5-7B基础模型开始时,将AIME24分数从22.1的纯文本基线提高到50.5。此外,通过避免监督微调的限制,SimpleTIR鼓励模型发现多样化和复杂的推理模式,例如自我纠正和交叉验证。

🎉 SimpleTIR 论文现已发布!
SimpleTIR 的官方研究论文已经发布!这项工作推进了具身多轮强化学习与工具使用的端到端研究。
📄 资源:
博客:https://simpletir.notion.site/report (2025 年 7 月 2 日)
论文: https://arxiv.org/abs/2509.02479
模型: https://huggingface.co/collections/ZhenghaiXue/simpletir-686ce09ae6e1db33b375f03d
代码: https://github.com/ltzheng/SimpleTIR