⏶8
自我挑战的语言模型智能体
发表
由
Jason Weston 提交
作者: Yifei Zhou, Sergey Levine, Jason Weston, Xian Li,
Sainbayar Sukhbaatar
摘要
大型语言模型正迅速成为能够使用工具的智能体的基础。然而,训练此类智能体具有挑战性,因为它需要人工创建和标注多样化的任务、工具和评估标准。在本文中,我们提出了一种“自我挑战”框架,用于在智能体自行生成的高质量任务上对其进行训练。智能体首先扮演挑战者的角色,在与给定工具交互后生成一个任务。任务采用了一种新颖的通用问题类别,称为“代码即任务”(Code-as-Task),它由指令、验证函数、解决方案和失败案例(作为测试用例)定义,从而能够仅筛选出高质量任务。随后,智能体扮演执行者的角色,利用评估反馈作为奖励,通过强化学习在这些任务上进行训练。对两个现有的多轮工具使用智能体基准M3ToolEval和TauBench的评估表明,尽管仅使用了自行生成的训练数据,“自我挑战”框架仍使Llama-3.1-8B-Instruct的性能提升了两倍以上。
一种新的范式,仅使用具有挑战性的自生成数据来训练 LLM 代理使用不同的工具:自挑战代理(SCA)既提出新任务又解决它们,使用自生成的验证器来推导 RL 训练的奖励。
通过对自合成的工具使用轨迹进行训练,SCA 显著提升了基础 LLM 的工具使用能力,在 TauBench 和 M3ToolEval 上实现了超过 2 倍的改进。