⏶10

WebChoreArena：在现实繁琐的网页任务上评估网页浏览代理

06月02日发表

06月03日由 Atsuyuki Miyai 提交

作者: Atsuyuki Miyai, Zaiying Zhao, Kazuki Egashira, Atsuki Sato, Tatsumi Sunada, Shota Onohara, Hiromasa Yamanishi, Mashiro Toyooka, Kunato Nishina, Ryoma Maeda, Kiyoharu Aizawa, Toshihiko Yamasaki

摘要

由大型语言模型（LLM）驱动的网页浏览代理能够以类似人类的方式操作网页浏览器，为自动化各种日常任务提供了高度透明的途径。随着网页代理的能力日益增强，并在通用浏览任务中展现出熟练度，一个关键问题浮出水面：它们能否超越通用浏览，稳健地处理那些繁琐、复杂或人类常常避开的琐事？在本文中，我们引入了WebChoreArena，一个全新的、完全可复现的基准测试，包含532个精心策划的任务，旨在将WebArena的范围从通用浏览扩展到更劳动密集和繁琐的任务。WebChoreArena系统地整合了三个关键挑战：(i) 大规模记忆任务，要求在观察中准确检索大量信息；(ii) 计算任务，需要精确的数学推理；以及 (iii) 长期记忆任务，要求跨多个网页进行长期记忆。WebChoreArena建立在完全可复现且广泛采用的四个WebArena模拟环境之上，确保了严格的可复现性，并能够与既有的WebArena基准进行公平、直接的比较，从而提供了关于代理进展的关键见解。我们的实验结果表明，随着以GPT-4o、Claude 3.7 Sonnet和Gemini 2.5 Pro为代表的LLM的演进，WebChoreArena上的性能取得了显著提升。这些发现表明，WebChoreArena非常适合更清晰地衡量最先进LLM的进步。然而，结果也指出，即使是Gemini 2.5 Pro，与WebArena相比，仍然有很大的改进空间，这突显了WebChoreArena带来的更大挑战。

查看 arXiv 页面查看 PDF

Atsuyuki Miyai

论文作者

论文提交者

🧙‍♂️ 想象一下，网络代理不仅能浏览，还能处理你繁琐的数字杂务！

📣 我们的团队开发了 WebChoreArena

532 个经过人工精心策划的任务，耗时 300 多个小时
测试代理在海量信息记忆、数学推理和长期记忆方面的能力
基于 WebArena 构建，完全可重现

📊 即使是 Gemini 2.5 Pro 也显示出巨大的改进空间，凸显了下一代基于 LLM 的网络代理面临的关键挑战！

🌐 https://webchorearena.github.io

📕 https://arxiv.org/abs/2506.01952

Yulei Qin

对 WebArena 的一个很好的扩展！

Atsuyuki Miyai

论文作者

论文提交者

@yolay 非常感谢！

WebChoreArena：在现实繁琐的网页任务上评估网页浏览代理

摘要

评论