哪个智能体在何时导致任务失败?—— 论 LLM 多智能体系统的自动化失败归因

发表
Ming YinMing Yin 提交
作者: Shaokun Zhang, Ming YinMing Yin, Jieyu Zhang, Jiale Liu, Zhiguang Han, Jingyang Zhang, Beibin Li, Chi Wang, Huazheng Wang, Yiran Chen, Qingyun Wu

摘要

LLM多智能体系统中的故障归因——识别导致任务失败的智能体和步骤——为系统调试提供了关键线索,但仍未得到充分探索且劳动密集。在本文中,我们提出并构建了一个新的研究领域:LLM 多智能体系统的自动化故障归因。为了支持这一倡议,我们引入了 Who&When 数据集,该数据集包含了来自 127 个 LLM 多智能体系统的海量故障日志,并附有细粒度标注,将故障与特定的智能体和决定性的错误步骤关联起来。利用 Who&When 数据集,我们开发并评估了三种自动化故障归因方法,并总结了它们各自的优缺点。最佳方法在识别负责故障的智能体方面达到了 53.5% 的准确率,但在精确定位故障步骤方面仅为 14.2%,一些方法的表现甚至低于随机水平。即使是 SOTA 推理模型,例如 OpenAI o1 和 DeepSeek R1,也未能实现实际可用性。这些结果突显了这项任务的复杂性以及在该领域开展进一步研究的必要性。代码和数据集可在 https://github.com/mingyin1/Agents_Failure_Attribution 获取。
查看 arXiv 页面查看 PDF
哪个智能体在何时导致任务失败?—— 论 LLM 多智能体系统的自动化失败归因

评论

Ming YinMing Yin
论文作者
论文提交者

在这篇论文中,我们提出并阐述了一个新的研究领域:大型语言模型多智能体系统的自动故障归因。