⏶23
UltraHorizon:在超长视距场景中评估智能体能力
发表
由
Haotian Luo 提交
作者: Haotian Luo, Huaisong Zhang, Xuelin Zhang, Haoyu Wang, Zeyu Qin, Wenjie Lu, Guozheng Ma, Haiying He, Yingsha Xie, Qiyang Zhou, Zixuan Hu, Hongze Mi, Yibo Wang, Naiqiang Tan, Hong Chen, Yi R. Fung, Chun Yuan, Li Shen
摘要
AI 生成总结
UltraHorizon 是一个评估自主代理长周期和部分可观察任务的新基准,突出了它们在持续推理、规划、记忆和工具使用能力方面的差距。自主代理最近在各个领域取得了显著进展,但大多数评估都集中在短时限、完全可观察的任务上。相比之下,许多关键的现实世界任务,例如大规模软件开发、商业投资和科学发现,都发生在长时限和部分可观察的场景中,其成功取决于持续的推理、规划、记忆管理和工具使用。现有基准很少能捕捉到这些长时限挑战,从而在系统评估方面存在差距。为了弥合这一差距,我们引入了 UltraHorizon,这是一个衡量复杂现实世界挑战所需基础能力的新型基准。我们使用探索作为三个不同环境中的统一任务来验证这些核心能力。代理被设计成在长时限发现任务中,它们必须通过持续的推理、规划、记忆和工具管理以及与环境的交互来反复揭示隐藏的规则。在最重 skala 设置下,轨迹平均超过 20 万个 token 和 400 多个工具调用,而在标准配置下,它们仍然超过 3.5 万个 token,平均涉及 60 多个工具调用。我们广泛的实验表明,LLM 代理在这些设置中始终表现不佳,而人类参与者则获得更高的分数,这突显了代理在长时限能力方面持续存在的差距。我们还观察到简单扩展在我们的任务中不起作用。为了更好地说明代理的失败,我们对收集的轨迹进行了深入分析。我们确定了八种错误类型,并将它们归因于两个主要原因:上下文锁定和功能基本能力差距。https://github.com/StarDewXXX/UltraHorizon{我们的代码将在那里提供。}
自主智能体在短 horizonte、完全可观察的任务中表现出色,但许多现实世界的挑战——如软件开发、投资和科学发现——需要长 horizonte 的推理、规划、记忆和工具使用。现有的基准测试忽略了这些设置。我们推出了 UltraHorizon,这是一个通过探索任务来评估长 horizonte、部分可观察环境中的智能体的基准。在最大的设置中,轨迹超过 200k token 和 400 次工具调用。实验表明,LLM 智能体与人类相比表现持续不佳,而朴素的扩展本身并不能解决问题。分析揭示了八种与上下文锁定相关的错误类型和根本性的能力差距。