⏶56
VS-Bench:评估多智能体环境中用于战略推理和决策的视觉-语言模型
发表
由
Zelai Xu 提交
作者:
Zelai Xu,
Zhexuan Xu,
Xiangmin Yi,
Huining Yuan,
Xinlei Chen, Yi Wu, Chao Yu, Yu Wang

摘要
视觉语言模型(VLM)的最新进展已将其能力扩展到交互式智能体任务,但现有基准仍仅限于单智能体或纯文本环境。相比之下,现实世界场景通常涉及多个智能体在丰富的视觉和语言环境中进行交互,对多模态观察和战略互动都构成了挑战。为了弥合这一差距,我们引入了视觉战略基准(Visual Strategic Bench,VS-Bench),这是一个多模态基准,用于评估 VLM 在多智能体环境中的战略推理和决策能力。VS-Bench 包含八个以视觉为基础的环境,涵盖合作、竞争和混合动机交互,旨在评估智能体预测他人未来行动和优化长期目标的能力。我们考虑了两个互补的评估维度,包括通过下一次行动预测准确性进行的战略推理离线评估,以及通过标准化回合收益进行的决策在线评估。对十四个领先 VLM 的广泛实验表明,当前模型与最佳性能之间存在显著差距,最佳模型达到了 47.8% 的预测准确性和 24.3% 的标准化收益。我们进一步对 VLM 智能体的多模态观察、测试时缩放、社会行为和失败案例进行了深入分析。通过标准化评估并突出现有模型的局限性,我们设想 VS-Bench 将成为未来战略多模态智能体研究的基础。代码和数据可在 https://vs-bench.github.io 获取。
我们推出了视觉策略基准(VS-Bench),这是一个多模态基准,用于评估VLM在多智能体环境中的战略推理和决策能力。