⏶25
HeroBench:虚拟世界中长程规划与结构化推理的基准测试
发表
由
Petr Anokhin 提交
作者: Petr Anokhin,
Roman Khalikov, Stefan Rebrikov,
Viktor Volkov, Artyom Sorokin, Vincent Bissonnette


摘要
大型语言模型(LLM)在诸如数学和编程等孤立的循序渐进推理任务中展现出卓越的能力,但它们在长程规划方面的熟练程度仍未得到充分探索,其中解决方案需要扩展的、结构化的相互依赖动作序列。现有基准通常通过抽象或低维算法任务来评估LLM,未能捕捉真实规划环境的复杂性。我们引入了HeroBench,这是一个新颖的基准,专门用于评估复杂RPG(角色扮演游戏)风格虚拟世界中的长程规划和结构化推理。HeroBench提供了一个严格构建的任务数据集,涵盖了广泛的难度;一个模拟环境,用于执行和验证智能体计划;以及详细的分析工具,用于评估模型性能。任务挑战模型制定战略计划、高效收集资源、掌握必要技能、制作装备并击败敌人,反映了实际场景中分层的依赖关系和约束。我们对25个最先进的LLM(包括开源和专有模型,以及GPT-5系列)进行了广泛评估,揭示了在传统推理基准中罕见的显著性能差异。详细的错误分析进一步揭示了当前模型在生成稳健的高级计划和可靠执行结构化动作方面的具体弱点。因此,HeroBench不仅显著推进了LLM推理的评估,还为未来虚拟环境中高级自主规划的研究提供了灵活、可扩展的基础。


代码和数据集可在 https://github.com/stefanrer/HeroBench 获取