⏶8

自我挑战的语言模型智能体

06月02日发表

06月04日由 Jason Weston 提交

作者: Yifei Zhou, Sergey Levine, Jason Weston, Xian Li, Sainbayar Sukhbaatar

摘要

大型语言模型正迅速成为能够使用工具的智能体的基础。然而，训练此类智能体具有挑战性，因为它需要人工创建和标注多样化的任务、工具和评估标准。在本文中，我们提出了一种“自我挑战”框架，用于在智能体自行生成的高质量任务上对其进行训练。智能体首先扮演挑战者的角色，在与给定工具交互后生成一个任务。任务采用了一种新颖的通用问题类别，称为“代码即任务”（Code-as-Task），它由指令、验证函数、解决方案和失败案例（作为测试用例）定义，从而能够仅筛选出高质量任务。随后，智能体扮演执行者的角色，利用评估反馈作为奖励，通过强化学习在这些任务上进行训练。对两个现有的多轮工具使用智能体基准M3ToolEval和TauBench的评估表明，尽管仅使用了自行生成的训练数据，“自我挑战”框架仍使Llama-3.1-8B-Instruct的性能提升了两倍以上。

查看 arXiv 页面查看 PDF

Jason Weston

论文提交者

一种新的范式，仅使用具有挑战性的自生成数据来训练 LLM 代理使用不同的工具：自挑战代理（SCA）既提出新任务又解决它们，使用自生成的验证器来推导 RL 训练的奖励。

通过对自合成的工具使用轨迹进行训练，SCA 显著提升了基础 LLM 的工具使用能力，在 TauBench 和 M3ToolEval 上实现了超过 2 倍的改进。

自我挑战的语言模型智能体

摘要

评论