WebChoreArena:在现实繁琐的网页任务上评估网页浏览代理

发表
Atsuyuki MiyaiAtsuyuki Miyai 提交
作者: Atsuyuki MiyaiAtsuyuki Miyai, Zaiying Zhao, Kazuki Egashira, Atsuki Sato, Tatsumi Sunada, Shota Onohara, Hiromasa Yamanishi, Mashiro Toyooka, Kunato Nishina, Ryoma Maeda, Kiyoharu Aizawa, Toshihiko Yamasaki

摘要

由大型语言模型(LLM)驱动的网页浏览代理能够以类似人类的方式操作网页浏览器,为自动化各种日常任务提供了高度透明的途径。随着网页代理的能力日益增强,并在通用浏览任务中展现出熟练度,一个关键问题浮出水面:它们能否超越通用浏览,稳健地处理那些繁琐、复杂或人类常常避开的琐事?在本文中,我们引入了WebChoreArena,一个全新的、完全可复现的基准测试,包含532个精心策划的任务,旨在将WebArena的范围从通用浏览扩展到更劳动密集和繁琐的任务。WebChoreArena系统地整合了三个关键挑战:(i) 大规模记忆任务,要求在观察中准确检索大量信息;(ii) 计算任务,需要精确的数学推理;以及 (iii) 长期记忆任务,要求跨多个网页进行长期记忆。WebChoreArena建立在完全可复现且广泛采用的四个WebArena模拟环境之上,确保了严格的可复现性,并能够与既有的WebArena基准进行公平、直接的比较,从而提供了关于代理进展的关键见解。我们的实验结果表明,随着以GPT-4o、Claude 3.7 Sonnet和Gemini 2.5 Pro为代表的LLM的演进,WebChoreArena上的性能取得了显著提升。这些发现表明,WebChoreArena非常适合更清晰地衡量最先进LLM的进步。然而,结果也指出,即使是Gemini 2.5 Pro,与WebArena相比,仍然有很大的改进空间,这突显了WebChoreArena带来的更大挑战。
查看 arXiv 页面查看 PDF

评论

Atsuyuki MiyaiAtsuyuki Miyai
论文作者
论文提交者

🧙‍♂️ 想象一下,网络代理不仅能浏览,还能处理你繁琐的数字杂务!

📣 我们的团队开发了 WebChoreArena

  • 532 个经过人工精心策划的任务,耗时 300 多个小时

  • 测试代理在海量信息记忆、数学推理和长期记忆方面的能力

  • 基于 WebArena 构建,完全可重现

📊 即使是 Gemini 2.5 Pro 也显示出巨大的改进空间,凸显了下一代基于 LLM 的网络代理面临的关键挑战!

🌐 https://webchorearena.github.io

📕 https://arxiv.org/abs/2506.01952

Yulei QinYulei Qin

对 WebArena 的一个很好的扩展!

Atsuyuki MiyaiAtsuyuki Miyai
论文作者
论文提交者

@yolay 非常感谢!