⏶27
AgentRewardBench:评估Web代理轨迹的自动评估
04月11日发表
04月15日由
Xing Han Lù 提交

作者:
Xing Han Lù,
Amirhossein Kazemnejad,
Nicholas Meade,
Arkil Patel,
Dongchan Shin,
Alejandra Zambrano,
Karolina Stańczak,
Peter Shaw, Christopher J. Pal,
Siva Reddy




摘要
Web 代理使用户能够通过自然语言交互在 Web 浏览器上执行任务。评估 Web 代理轨迹是一个重要问题,因为它有助于我们确定代理是否成功完成了任务。基于规则的方法被广泛用于此目的,但它们难以扩展到新任务,并且可能并不总是识别成功的轨迹。我们可能通过人工评估获得更高的准确性,但该过程将大大减慢且成本更高。使用 LLM 进行自动评估可以避免设计新规则和手动注释轨迹的挑战,从而实现更快且更具成本效益的评估。然而,尚不清楚它们在评估 Web 代理方面的效果如何。为此,我们提出了 AgentRewardBench,这是第一个评估 LLM 评判器在评估 Web 代理方面的有效性的基准。AgentRewardBench 包含跨 5 个基准测试和 4 个 LLM 的 1302 条轨迹。AgentRewardBench 中的每条轨迹都由专家审查,专家回答有关代理的成功、副作用和重复性的问题。使用我们的基准,我们评估了 12 个 LLM 评判器,发现没有一个 LLM 在所有基准测试中都表现出色。我们还发现,常用基准测试中使用的基于规则的评估往往会低估 Web 代理的成功率,突出了基于规则的评估的一个关键弱点,以及开发更灵活的自动评估的必要性。我们在以下网址发布了基准:https://agent-reward-bench.github.io

AgentRewardBench 是一个用于评估网络代理轨迹自动评估方法(例如 LLM 评判器)有效性的基准。通过与 5 个网络基准的人工标注进行比较,我们可以使用 AgentRewardBench 来确定哪个 LLM 最有能力评估网络代理