⏶11
PointArena: 通过语言引导的指向探究多模态接地
发表
由
Duan 提交
作者: Long Cheng, Jiafei Duan,
Yi Ru Wang,
Haoquan Fang,
Boyang Li,
Yushan Huang, Elvis Wang,
Ainaz Eftekhar, Jason Lee, Wentao Yuan,
Rose Hendrix, Noah A. Smith, Fei Xia, Dieter Fox,
Ranjay Krishna
摘要
指代是语言在视觉语境中落地的一种基础且直观的机制,其应用涵盖机器人学、辅助技术和交互式人工智能系统。尽管最近的多模态模型已开始支持指代能力,但现有基准通常只关注指示性对象定位任务。我们引入了 PointArena,这是一个用于评估多模态指代在不同推理场景中表现的综合平台。PointArena 包含三个组成部分:(1) Point-Bench,一个精心策划的数据集,包含约1,000个跨越五种推理类别的指代任务;(2) Point-Battle,一个交互式的网络竞技场,便于进行盲选、成对的模型比较,已收集了超过4,500份匿名投票;和 (3) Point-Act,一个真实的机器人操作系统,允许用户在实际场景中直接评估多模态模型的指代能力。我们对最先进的开源和专有多模态模型进行了广泛评估。结果表明,Molmo-72B 持续优于其他模型,尽管专有模型正日益展现出可比的性能。此外,我们发现专门针对指代任务进行的监督训练显著提升了模型性能。在我们的多阶段评估流程中,我们也观察到强烈的相关性,这强调了精确的指代能力在使多模态模型有效连接抽象推理与具体的现实世界行动方面的关键作用。项目页面:https://pointarena.github.io/

我们引入了 PointArena,这是一个综合平台,用于评估多模态指向在不同推理场景下的表现。PointArena 由以下三个部分组成:(1) Point-Bench,一个精心策划的数据集,包含大约1,000个涵盖五种推理类别的指向任务;(2) Point-Battle,一个交互式、基于网络的竞技场,便于进行盲测的、成对的模型比较,目前已收集了超过4,500个匿名投票;以及 (3) Point-Act,一个真实世界的机器人操作系统,允许用户在实际环境中直接评估多模态模型的指向能力。