FlashAdventure:用于 GUI 代理解决多样化冒险游戏中完整故事线上的基准测试

发表
Jaewoo AhnJaewoo Ahn 提交
作者: Jaewoo AhnJaewoo Ahn, Junseo Kim, Heeseung Yun, Jaehyeon Son, Dongmin Park, Jaewoong Cho, Gunhee Kim

摘要

由 LLM 驱动的 GUI 代理在与各种数字环境交互方面显示出潜力。其中,视频游戏因其多样化的界面而成为一个有价值的测试平台,而冒险游戏由于其复杂的、叙事驱动的交互而带来了额外的挑战。然而,现有的游戏基准测试缺乏多样性,并且很少对代理完成整个故事情节的能力进行评估。为了解决这个问题,我们推出了 FlashAdventure,这是一个包含 34 个基于 Flash 的冒险游戏的基准测试,旨在测试完整的故事情节完成情况,并解决观察-行为差距:即记住和基于早期游戏信息采取行动的挑战。我们还提出了 CUA-as-a-Judge,一个自动化的游戏评估器,以及 COAST,一个利用长期线索记忆来更好地规划和解决顺序任务的代理框架。实验表明,当前的 GUI 代理在处理完整故事情节方面存在困难,而 COAST 通过弥合观察-行为差距来提高里程碑的完成度。尽管如此,人类与表现最佳的代理之间存在显著的差距,这表明需要持续的研究工作来缩小这一差距。
查看 arXiv 页面查看 PDF

评论

Jaewoo AhnJaewoo Ahn
论文作者
论文提交者

[EMNLP 2025 主会]

摘要:由 LLM 驱动的 GUI 智能体在与各种数字环境交互方面显示出潜力。其中,视频游戏因其多样的界面而成为宝贵的测试平台,而冒险游戏通过复杂、叙事驱动的交互带来了额外的挑战。然而,现有的游戏基准缺乏多样性,并且很少评估智能体完成整个故事情节的能力。为了解决这个问题,我们引入了 FlashAdventure,这是一个包含 34 款 Flash 冒险游戏的数据集,旨在测试完整的故事情节完成度,并解决观测-行为差距:即记住和基于早期游戏信息进行操作的挑战。我们还提出了 CUA-as-a-Judge,一个自动游戏评估器,以及 COAST,一个利用长期线索记忆来更好地规划和解决顺序任务的智能体框架。实验表明,当前的 GUI 智能体在完成整个故事情节方面存在困难,而 COAST 通过弥合观测-行为差距来提高里程碑的完成度。尽管如此,人类和表现最佳的智能体之间仍然存在显著差异,这表明需要持续的研究努力来缩小这一差距。

스크린샷 2025-09-03 오후 2.05.12.png