ReTool:用于LLM中战略工具使用的强化学习

发表
AKAK 提交
作者: Jamie Jiazhan FengJiazhan Feng, Shijue HuangShijue Huang, Xingwei Qu, Ge ZhangGe Zhang, Yujia QinYujia Qin, Baoquan Zhong, Chengquan JiangChengquan Jiang, Jinxin ChiJinxin Chi, Wanjun ZhongWanjun Zhong

摘要

虽然使用强化学习 (RL) 训练的推理模型(例如,DeepSeek R1)在文本推理方面表现出色,但它们在需要结构化问题解决的场景中却显得吃力,例如几何推理、简洁计算或复杂方程求解——在这些领域,代码解释器 (CI) 等计算工具展现出明显的优势。为了弥合这一差距,我们提出了 ReTool,它通过工具集成学习来增强长篇推理,包括两个关键特征:(1)在自然语言推理过程中动态地交织实时代码执行;(2)一种自动化的 RL 范式,允许策略推出,进行多轮实时代码执行,并基于结果反馈教导模型何时以及如何调用工具。ReTool 采用系统的训练框架,首先进行合成的冷启动数据生成,以产生代码增强的长篇推理轨迹,用于微调基础模型。随后的 RL 训练利用任务结果作为奖励,迭代地改进模型的工具使用策略,从而在没有人类先验知识的情况下自主发现最佳的工具调用模式。在具有挑战性的 MATH 奥林匹克基准测试 AIME 上的实验证明了 ReTool 的优越性:我们的 32B 模型在 400 个训练步骤中实现了 67% 的准确率,在效率和性能上均优于基于文本的 RL 基线(40% 的准确率,1080 个步骤)。值得注意的是,ReTool-32B 在扩展设置中达到了 72.5% 的准确率,比 OpenAI 的 o1-preview 高出 27.9%。进一步的分析揭示了涌现行为,例如代码自我纠正,这标志着一个“顿悟时刻”,模型在其中自主掌握了自适应工具的使用。这些发现突显了结果驱动的工具集成在推进复杂数学推理方面的潜力,并为混合神经符号系统提供了新的见解。
查看 arXiv 页面查看 PDF

评论