⏶1
文本任务:大型语言模型在文本冒险游戏中表现如何?
发表
由
Long Phan 提交

作者:
Long Phan, Mantas Mazeika, Andy Zou, Dan Hendrycks

摘要
在复杂、互动且模拟现实挑战的环境中评估人工智能代理,对于理解其实际能力至关重要。虽然现有的代理基准能够有效评估工具使用或结构化任务上的表现等技能,但它们通常无法完全捕捉代理在需要长期、自主推理的探索性环境中自主运行的能力,尤其是在面对不断增长的上下文时。为了促进开发能够在更长周期内进行更鲁棒的内在推理的代理,我们推出了TextQuests,一个基于Infocom系列交互式小说游戏的基准。这些文本冒险游戏,人类玩家可能需要30多个小时和数百个精确动作才能解决,是评估AI代理在专注、有状态任务上能力的有效代理。该基准专门设计用于评估大型语言模型代理的独立解决问题的能力,因此排除了外部工具的使用,从而专注于在探索性环境中内在的长上下文推理能力,该环境的特点是需要在单个交互式会话中进行试错学习和持续的问题解决。我们已在 https://textquests.ai 发布TextQuests。
论文:https://arxiv.org/abs/2507.23701
网站:https://textquests.ai
博客:https://huggingface.co/blog/textquests
代码:https://github.com/centerforaisafety/textquests