⏶19
VideoGameQA-Bench: 评估用于电子游戏质量保证的视觉-语言模型
发表
由
taesiri 提交

作者:
Mohammad Reza Taesiri, Abhijay Ghildyal, Saman Zadtootaghaj,
Nabajeet Barman,
Cor-Paul Bezemer


摘要
随着电子游戏目前在娱乐产业中创造最高收入,优化游戏开发流程对于该行业的持续增长至关重要。视觉语言模型 (VLMs) 的最新进展为自动化和增强游戏开发的各个方面提供了巨大的潜力,特别是质量保证 (QA),这仍然是该行业劳动密集型流程之一,自动化选项有限。为了准确评估 VLMs 在电子游戏 QA 任务中的性能并确定其在处理实际场景中的有效性,急需标准化基准,因为现有基准不足以满足该领域的特定需求。为了弥补这一差距,我们引入了 VideoGameQA-Bench,这是一个综合性基准,涵盖了广泛的游戏 QA 活动,包括视觉单元测试、视觉回归测试、大海捞针任务、故障检测以及针对各种游戏图像和视频的 Bug 报告生成。代码和数据可在以下链接获取:https://asgaardlab.github.io/videogameqa-bench/
VideoGameQA-Bench