OTC:基于强化学习的最优工具调用

发表
Hongru WangHongru Wang 提交
作者: Hongru Wang, Cheng QianCheng Qian, Wanjun Zhong, Xiusi Chen, Jiahao Qiu, Shijue Huang, Bowen Jin, Mengdi Wang, Kam-Fai Wong, Heng Ji

摘要

工具集成推理 (TIR) 通过使其能够调用外部工具,例如搜索引擎和代码解释器,增强了大型语言模型 (LLMs),以解决超出仅依赖语言进行推理的任务。尽管强化学习 (RL) 在改进 TIR 方面已显示出潜力,通过优化最终答案的正确性,现有方法通常忽视了与工具使用相关的效率和成本。这可能导致次优行为,包括过多的工具调用,从而增加计算和财务开销,或工具使用不足,损害了答案质量。在这项工作中,我们提出了最优工具调用控制策略优化 (Optimal Tool Call-controlled Policy Optimization, OTC-PO),一个基于 RL 的简单而有效的框架,鼓励模型以最少的工具调用生成准确答案。我们的方法引入了一种工具集成奖励,联合考虑了正确性和工具效率,促进了高工具生产力。我们在近端策略优化 (Proximal Policy Optimization, PPO) 和群体相对偏好优化 (Group Relative Preference Optimization, GRPO) 中实例化了这个框架,分别得到了 OTC-PPO 和 OTC-GRPO。在多个问答 (QA) 基准测试上使用 Qwen-2.5 和 Qwen-Math 进行的实验表明,我们的方法将工具调用次数减少了高达 73.1\%,并将工具生产力提高了高达 229.4\%,同时保持了可比的答案准确性。据我们所知,这是首个明确优化 TIR 中工具使用效率的基于 RL 的框架。
查看 arXiv 页面查看 PDF

评论

Hongru WangHongru Wang
论文提交者

OTC-PO = 更少的外部工具调用 + 更多的内部推理 + 更智能的工具使用, 即 最小化外部工具调用 = 最大化内部推理) = 智能代理。我们使用一个通用奖励来实现这一点!!