LLM智能体失败的地点以及它们如何从失败中学习

发表
KunlunZhuKunlunZhu 提交
作者: Kunlun Zhu, Zijia LiuZijia Liu, Bingxuan Li, Muxin Tian, Yingxuan Yang, Jiaxun Zhang, Pengrui Han, Qipeng Xie, Fuyang CuiFuyang Cui, Weijia Zhang, Xiaoteng Ma, Xiaodong Yu, Gowtham Ramesh, Jialian Wu, Zicheng Liu, Pan LuPan Lu, James Zou, Jiaxuan You

摘要

AI 生成总结
模块化分类法和调试框架改进了大型语言模型智能体中的错误检测和恢复,提高了任务成功率。
大型语言模型(LLM)代理,集成了规划、记忆、反思和工具使用模块,在解决复杂的多步任务方面显示出了潜力。然而,它们复杂的架构会放大其对级联故障的脆弱性,即一个根本原因错误会通过后续决策传播,导致任务失败。当前的系统缺乏一个能够以模块化和系统化的方式全面理解代理错误的框架,因此未能相应地检测到这些错误。我们通过三项贡献来弥补这一差距。首先,我们引入了 AgentErrorTaxonomy,这是一个模块化的故障模式分类,涵盖记忆、反思、规划、动作和系统级操作。其次,我们构建了 AgentErrorBench,这是第一个从 ALFWorld、GAIA 和 WebShop 系统标注的故障轨迹的数据集,将错误分析 grounding 在现实世界的代理滚出中。第三,我们提出了 AgentDebug,一个调试框架,可以隔离根本原因的故障并提供纠正性反馈,使代理能够恢复并进行迭代改进。在 AgentErrorBench 上的实验表明,AgentDebug 比最强大的基线取得了 24% 的所有正确率和 17% 的步长准确率。除了检测之外,AgentDebug 生成的定向反馈使 LLM 代理能够从故障中迭代恢复,在 ALFWorld、GAIA 和 WebShop 上取得了高达 26% 的任务成功率相对提升。这些结果将原则性调试确立为实现更可靠和自适应的 LLM 代理的途径。代码和数据将在 https://github.com/ulab-uiuc/AgentDebug 上提供。
查看 arXiv 页面查看 PDF

评论