⏶27
Surfer-H 遇见 Holo1:由开放权重驱动的经济高效 Web 智能体
发表
由
Hamza Benchekroun 提交

作者: Mathieu Andreux, Breno Baldas Skuk,
Hamza Benchekroun,
Emilien Biré, Antoine Bonnet, Riaz Bordie, Matthias Brunel,
Pierre-Louis Cedoz,
Antoine Chassang, Mickaël Chen,
Alexandra D. Constantinou, Antoine d'Andigné, Hubert de La Jonquière,
Aurélien Delfosse, Ludovic Denoyer, Alexis Deprez, Augustin Derupti, Michael Eickenberg, Mathïs Federico, Charles Kantor, Xavier Koegler, Yann Labbé, Matthew C. H. Lee, Erwan Le Jumeau de Kergaradec, Amir Mahla, Avshalom Manevich, Adrien Maret, Charles Masson, Rafaël Maurin, Arturo Mena, Philippe Modard, Axel Moyal, Axel Nguyen Kerbel, Julien Revelle, Mats L. Richter, María Santos, Laurent Sifre, Maxime Theillard, Marc Thibault, Louis Thiry, Léo Tronchon, Nicolas Usunier,
Tony Wu


摘要
我们提出了Surfer-H,这是一种经济高效的Web代理,它集成了视觉-语言模型(VLM)以在Web上执行用户定义的任务。我们将其与Holo1配对,Holo1是专门用于Web导航和信息提取的新型开源VLM集合。Holo1是在精心策划的数据源上进行训练的,包括开放访问的Web内容、合成示例和自生成的代理数据。Holo1在通用用户界面(UI)基准测试以及我们新的Web UI本地化基准测试WebClick中均名列前茅。当由Holo1驱动时,Surfer-H在WebVoyager上实现了92.2%的最新性能,在准确性和成本效益之间取得了帕累托最优的平衡。为了加速代理系统领域的研究进展,我们正在开源WebClick评估数据集和Holo1模型权重。
我们提出 Surfer-H,这是一种经济高效的网页代理,它集成了视觉-语言模型(VLM)以在网页上执行用户定义的任务。我们将其与 Holo1 配合使用,Holo1 是一种专门从事网页导航和信息提取的新型开源 VLM 集合。Holo1 经过精心策划的数据源训练,包括开放获取的网页内容、合成示例和自生成的代理数据。Holo1 在通用用户界面(UI)基准测试以及我们新的网页 UI 定位基准 WebClick 中均表现出色。当由 Holo1 提供支持时,Surfer-H 在 WebVoyager 上实现了 92.2% 的最先进性能,在准确性和成本效益之间取得了帕累托最优平衡。为了加速代理系统领域的研究进展,我们正在开源 WebClick 评估数据集和 Holo1 模型权重。