⏶11
探索专家失败可以改进LLM代理调优
发表
由
Tianyi Zhou 提交

作者: Li-Cheng Lan, Andrew Bai, Minhao Cheng, Cho-Jui Hsieh,
Tianyi Zhou

摘要
大型语言模型(LLMs)作为智能体显示出巨大的潜力,擅长需要多轮推理和交互的任务。拒绝采样微调(RFT)已成为将 LLM 微调为智能体的有效方法:它首先模仿专家生成的成功轨迹,并通过在成功的自生成轨迹上进行迭代微调来进一步提高智能体技能。然而,由于专家(例如,GPT-4)主要在较简单的子任务上取得成功,并且 RFT 本质上偏爱较简单的场景,因此许多复杂的子任务仍然未解决,并且始终处于分布外(OOD)状态。在调查这些具有挑战性的子任务时,我们发现以前失败的专家轨迹通常可以提供有价值的指导,例如,计划和关键行动,这些可以显著提高智能体探索效率和关键技能的获取。受到这些观察的启发,我们提出了探索专家失败(EEF),它从失败的专家轨迹中识别有益的行动,并将它们集成到训练数据集中。潜在的有害行动被仔细排除,以防止污染模型学习过程。通过利用专家失败中的有益行动,EEF 成功地解决了一些以前无法解决的子任务,并提高了智能体调优性能。值得注意的是,我们的方法在 WebShop 中实现了 62% 的胜率,优于 RFT(53.6%)和 GPT-4(35.6%),并且据我们所知,创造了新的最先进水平,成为第一个在 WebShop 中超过 0.81 分,在 SciWorld 中超过 81 分的方法。
不要浪费专家失败的轨迹! 它们可以用来指导学生的探索并提高他们的代理技能!