TRAIL:智能体问题跟踪与定位

发表
Darshan DeshpandeDarshan Deshpande 提交
作者: Darshan DeshpandeDarshan Deshpande, Varun Gangal, Hersh Mehta, Jitin Krishnan, Anand Kannappan, Rebecca Qian

摘要

代理工作流在各个领域的日益普及,带来了对这些系统生成的复杂跟踪记录进行可扩展和系统化评估的迫切需求。当前的评估方法依赖于人工对冗长的跟踪记录进行手动、领域特定的分析——这种方法无法随着代理输出日益增长的复杂性和数量而扩展。在这些场景中,错误分析因外部工具输出和语言模型推理的相互作用而变得更加复杂,这使得它比传统的软件调试更具挑战性。在这项工作中,我们 (1) 阐明了对代理工作流跟踪记录进行鲁棒和动态评估方法的必要性,(2) 引入了代理系统中遇到的错误类型的正式分类法,以及 (3) 基于此分类法并以既定的代理基准为基础,构建并提供了由 148 个大型人工标注的跟踪记录组成的集合 (TRAIL)。为确保生态有效性,我们收集了来自单代理和多代理系统的跟踪记录,重点关注软件工程和开放世界信息检索等实际应用。我们的评估表明,现代长上下文大型语言模型在跟踪记录调试方面表现不佳,即使是最好的 Gemini-2.5-pro 模型在 TRAIL 上的得分也仅为 11%。我们的数据集和代码已公开提供,以支持和加速未来在代理工作流可扩展评估方面的研究。
查看 arXiv 页面查看 PDF
TRAIL:智能体问题跟踪与定位
TRAIL:智能体问题跟踪与定位

评论

Darshan DeshpandeDarshan Deshpande
论文作者
论文提交者

TRAIL 是一个包含 148 个已标注的 AI 智能体执行轨迹的基准数据集,这些轨迹包含分布在推理、执行和规划类别中的 841 个错误。该数据集来源于真实的软件工程和信息检索任务,它甚至对最先进的 LLM 构成了挑战,最好的 Gemini-2.5-Pro-preview 模型仅取得了 11% 的准确率,这凸显了轨迹调试的难度以及对复杂智能体工作流程进行更好评估的需求。