AgentRewardBench:评估Web代理轨迹的自动评估

04月11日发表
04月15日由 Xing Han LùXing Han Lù 提交
作者: Xing Han LùXing Han Lù, Amirhossein KazemnejadAmirhossein Kazemnejad, Nicholas MeadeNicholas Meade, Arkil PatelArkil Patel, Dong Chan ShinDongchan Shin, Alejandra ZambranoAlejandra Zambrano, Karolina StanczakKarolina Stańczak, Peter ShawPeter Shaw, Christopher J. Pal, Siva ReddySiva Reddy

摘要

Web 代理使用户能够通过自然语言交互在 Web 浏览器上执行任务。评估 Web 代理轨迹是一个重要问题,因为它有助于我们确定代理是否成功完成了任务。基于规则的方法被广泛用于此目的,但它们难以扩展到新任务,并且可能并不总是识别成功的轨迹。我们可能通过人工评估获得更高的准确性,但该过程将大大减慢且成本更高。使用 LLM 进行自动评估可以避免设计新规则和手动注释轨迹的挑战,从而实现更快且更具成本效益的评估。然而,尚不清楚它们在评估 Web 代理方面的效果如何。为此,我们提出了 AgentRewardBench,这是第一个评估 LLM 评判器在评估 Web 代理方面的有效性的基准。AgentRewardBench 包含跨 5 个基准测试和 4 个 LLM 的 1302 条轨迹。AgentRewardBench 中的每条轨迹都由专家审查,专家回答有关代理的成功、副作用和重复性的问题。使用我们的基准,我们评估了 12 个 LLM 评判器,发现没有一个 LLM 在所有基准测试中都表现出色。我们还发现,常用基准测试中使用的基于规则的评估往往会低估 Web 代理的成功率,突出了基于规则的评估的一个关键弱点,以及开发更灵活的自动评估的必要性。我们在以下网址发布了基准:https://agent-reward-bench.github.io
查看 arXiv 页面查看 PDF

评论

Xing Han LùXing Han Lù
论文作者
论文提交者
AgentRewardBench

AgentRewardBench 是一个用于评估网络代理轨迹自动评估方法(例如 LLM 评判器)有效性的基准。通过与 5 个网络基准的人工标注进行比较,我们可以使用 AgentRewardBench 来确定哪个 LLM 最有能力评估网络代理