⏶39
ToolRL:奖励是工具学习的全部需求
发表
由
emre can 提交

作者:
Cheng Qian,
Emre Can Acikgoz, Qi He,
Hongru Wang,
Xiusi Chen, Dilek Hakkani-Tür,
Gokhan Tur, Heng Ji



摘要
当前大型语言模型 (LLMs) 通常会经过监督微调 (SFT) 以获得工具使用能力。然而,SFT 难以推广到不熟悉或复杂的工具使用场景。强化学习 (RL) 的最新进展,特别是 R1 类模型,已经展示出有希望的推理和泛化能力。然而,工具使用的奖励设计提出了独特的挑战:可能会调用具有不同参数的多种工具,并且粗粒度的奖励信号(例如答案匹配)无法提供有效学习所需的细粒度反馈。在这项工作中,我们首次对 RL 范式内工具选择和应用任务的奖励设计进行了全面的研究。我们系统地探索了广泛的奖励策略,分析了它们的类型、规模、粒度和时间动态。基于这些见解,我们提出了一种为工具使用任务量身定制的原则性奖励设计,并将其应用于使用 Group Relative Policy Optimization (GRPO) 训练 LLM。在各种基准上的实证评估表明,我们的方法产生了稳健、可扩展且稳定的训练,与基础模型相比提高了 17%,与 SFT 模型相比提高了 15%。这些结果突出了周全的奖励设计在增强 LLM 的工具使用能力和泛化性能方面的关键作用。所有代码均已发布,以方便未来的研究。





代码: https://github.com/qiancheng0/ToolRL
模型: collection