⏶13
V-MAGE:一个用于评估多模态大型语言模型中以视觉为中心的能力的游戏评估框架
04月08日发表
04月09日由
Alex Jinpeng Wang 提交

作者:
Xiangxi Zheng,
Linjie Li,
Zhengyuan Yang,
Ping Yu,
Alex Jinpeng Wang, Rui Yan,
Yuan Yao, Lijuan Wang

摘要
多模态大型语言模型 (MLLM) 的最新进展已在各种多模态基准测试中取得了显着改进。然而,随着评估从静态数据集转向开放世界、动态环境,当前基于游戏的基准仍然不足,因为它们缺乏以视觉为中心的任务,并且无法评估现实世界决策所需的各种推理技能。为了解决这个问题,我们推出了以视觉为中心的多能力游戏评估 (V-MAGE),这是一个基于游戏的评估框架,旨在评估 MLLM 的视觉推理能力。V-MAGE 包含五个不同的游戏,具有 30 多个手工关卡,测试模型的核心视觉技能,例如定位、轨迹跟踪、计时和视觉记忆,以及更高级别的推理,例如长期规划和审议。我们使用 V-MAGE 来评估领先的 MLLM,揭示了它们在视觉感知和推理方面的重大挑战。在所有游戏环境中,根据 Elo 评分比较确定的表现最佳的 MLLM 与人类相比,都表现出明显的性能差距。我们的研究结果突出了关键的局限性,包括模型产生的各种类型的感知错误,并从以代理为中心的角度提出了潜在的改进途径,例如改进代理策略和解决感知不准确性。代码可在 https://github.com/CSU-JPG/V-MAGE 上获取。
V-MAGE:一个用于评估多模态大型语言模型中视觉中心能力的 游戏评估框架