EOC-Bench:MLLM 能否在自我中心世界中识别、回忆和预测物体?

发表
YuqianYuanYuqianYuan 提交
作者: YuqianYuanYuqian Yuan, Ronghao Dang, Long Li, Wentong Li, Dian Jiao, Xin Li, Deli Zhao, Fan Wang, Wenqiao Zhang, Jun Xiao, Yueting Zhuang

摘要

多模态大型语言模型(MLLMs)的出现推动了以自我为中心视觉应用领域的突破。这些应用要求对物体进行持续、上下文感知的理解,因为用户在动态和杂乱的环境中与工具进行交互。然而,现有的具身基准主要关注静态场景探索,强调物体的外观和空间属性,而忽略了评估用户交互引起的动态变化。为了弥补这一空白,我们引入了 EOC-Bench,一个旨在系统评估动态以自我为中心场景中以物体为中心的具身认知的新型基准。具体而言,EOC-Bench 包含 3,277 对精心标注的问答对,分为三个时间类别:过去、现在和未来,涵盖 11 个细粒度评估维度和 3 种视觉物体引用类型。为了确保全面评估,我们开发了一个混合格式的人机协作标注框架,包含四种类型的问题,并设计了一种新颖的多尺度时间精度度量,用于开放式时间评估。基于 EOC-Bench,我们对各种专有、开源和物体级别的 MLLMs 进行了全面评估。EOC-Bench 作为推进 MLLMs 具身物体认知能力的关键工具,为开发可靠的具身系统核心模型奠定了坚实基础。
查看 arXiv 页面查看 PDF
EOC-Bench:MLLM 能否在自我中心世界中识别、回忆和预测物体?

评论