Tool-R0:从零数据开始进行工具学习的自进化大语言模型智能体

发表
emre canemre can 提交
作者: Emre Can Acikgoz, Cheng Qian, Jonas HübotterJonas Hübotter, Heng Ji, Dilek Hakkani-Tür, Gokhan Tur

摘要

AI 生成总结
Tool-R0 框架通过自我博弈强化学习,在没有初始数据集的情况下实现通用工具调用智能体的训练,相比基础模型和监督基准取得了显著的性能提升。
大语言模型 (LLM) 正成为能够使用工具解决复杂任务的自主智能体的基础。强化学习 (RL) 已成为注入此类智能体能力的常用方法,但通常处于严格受控的训练设置下。它往往依赖于精心构建的任务-方案对和大量的人工监督,这为通往超级智能系统的开放式自我进化创造了根本障碍。在本文中,我们提出了 Tool-R0 框架,旨在零数据假设下通过自博弈强化学习从头开始训练通用的工具调用智能体。Tool-R0 从同一个基础 LLM 初始化,共同进化生成器 (Generator) 和求解器 (Solver),并配以互补的奖励:一个在另一个的能力边界提出有针对性的挑战性任务,另一个则学习通过现实世界的工具调用来解决这些任务。这创造了一个无需预先存在任务或数据集的自我进化循环。在不同工具使用基准上的评估显示,Tool-R0 相比基础模型产生了 92.5% 的相对提升,并在相同设置下超越了全监督工具调用基准。我们的工作通过分析共同进化、课程动态和扩展行为,进一步提供了关于自博弈 LLM 智能体的实证见解。
查看 arXiv 页面查看 PDF

评论

emre canemre can
论文提交者

一个自博弈 RL 框架,用于从零开始训练通用工具调用智能体,无需任何人类数据。