⏶8
AGENTIF:在智能体场景下评估大型语言模型遵循指令的能力
发表
由
Qi Yunjia 提交
作者: Yunjia Qi, Hao Peng, Xiaozhi Wang, Amy Xin, Youfeng Liu, Bin Xu, Lei Hou, Juanzi Li
摘要
大型语言模型(LLMs)在现实世界的智能体应用中展现了先进的能力。越来越多的研究致力于开发基于LLM的智能体以满足实际需求,这带来了一个新的挑战:智能体场景通常涉及带有复杂约束的冗长指令,例如扩展的系统提示和详细的工具规范。虽然遵守这些指令对于智能体应用至关重要,但LLMs能否可靠地遵循它们仍未得到充分探索。在本文中,我们引入了AgentIF,这是第一个用于系统评估LLM在智能体场景中指令遵循能力的基准。AgentIF具有三个关键特征:(1)真实性:取材于50个真实的智能体应用;(2)长度:平均1,723词,最大长度达15,630词;(3)复杂性:每条指令平均包含11.9个约束,涵盖工具规范和条件约束等多种约束类型。为了构建AgentIF,我们从工业应用智能体和开源智能体系统中收集了50个智能体任务的707条人工标注指令。对于每条指令,我们都标注了相关的约束和相应的评估指标,包括基于代码的评估、基于LLM的评估以及代码-LLM混合评估。我们使用AgentIF系统地评估了现有的先进LLMs。我们观察到,当前模型总体表现不佳,尤其在处理复杂约束结构和工具规范方面。我们进一步进行了错误分析和关于指令长度及元约束的分析实验,提供了关于现有LLMs失败模式的一些发现。我们已经发布了代码和数据,以便利未来的研究。
我们提出了一个基准,用于评估大型语言模型在智能体场景下的指令遵循能力。