⏶22
Open CaptchaWorld:一个用于测试和基准测试多模态LLM代理的综合性网络平台
发表
由
YaxinLuo 提交
作者: Yaxin Luo, Zhaoyi Li, Jiacheng Liu,
Jiacheng Cui, Xiaohan Zhao, Zhiqiang Shen
摘要
验证码(CAPTCHA)一直是网络代理在实际应用中部署的关键瓶颈,通常会阻止它们完成端到端的自动化任务。虽然现代多模态LLM代理在静态感知任务中表现出令人印象深刻的性能,但它们处理交互式、多步推理挑战(如验证码)的能力在很大程度上尚未经过测试。为了弥补这一空白,我们引入了Open CaptchaWorld,这是第一个专门设计用于通过多样化和动态的验证码谜题来评估MLLM驱动代理的视觉推理和交互能力的基于网络的基准和平台。我们的基准涵盖了20种现代验证码类型,共计225个验证码,并使用我们提出的新指标:验证码推理深度(CAPTCHA Reasoning Depth)进行标注,该指标量化了解决每个谜题所需的认知和运动步骤数。实验结果表明,人类始终能取得接近完美的得分,而最先进的MLLM代理则表现不佳,其中Browser-Use Openai-o3的成功率最高仅为40.0%,远低于人类水平的93.3%。这突出表明Open CaptchaWorld是诊断当前多模态代理极限和指导开发更强大多模态推理系统的重要基准。代码和数据可在此https URL获取。
验证码一直是部署网络代理在实际应用中的一个关键瓶颈,经常阻止它们完成端到端的自动化任务。虽然现代多模态大型语言模型(LLM)代理在静态感知任务中表现出令人印象深刻的性能,但它们处理验证码等交互式、多步推理挑战的能力在很大程度上未经测试。为了弥补这一空白,我们引入了 Open CaptchaWorld,这是第一个专门设计用于通过多样化和动态的验证码谜题来评估 MLLM 驱动代理的视觉推理和交互能力的基于网络的基准和平台。我们的基准涵盖 20 种现代验证码类型,共计 225 个验证码,并附有我们提出的一种新指标:验证码推理深度(CAPTCHA Reasoning Depth),该指标量化了解决每个谜题所需的认知和运动步骤。实验结果表明,人类始终能达到接近完美的得分,而最先进的 MLLM 代理则表现出显著的困难,Browser-Use Openai-o3 的成功率最高为 40.0%,远低于人类水平的 93.3%。这凸显了 Open CaptchaWorld 作为一个重要的基准,可以诊断当前多模态代理的局限性,并指导更强大的多模态推理系统的开发。