⏶0
大型语言模型函数调用中的指令遵循评估
发表
由
Nikolai Skripko 提交
作者:
Nikolai Skripko
摘要
AI 生成总结
IFEval-FC 是一个评估函数调用的基准,通过评估在 JSON 模式描述中遵循格式说明的程度来评估,揭示了即使是先进的模型也经常无法遵循基本的格式规则。函数调用是大型语言模型的一项核心能力,对于 AI 代理至关重要。
现有的基准测试,如 Berkeley Function Calling Leaderboard (BFCL)、tau^2-Bench (arXiv:2506.07982) 和 ACEBench (arXiv:2501.12851),
评估参数的正确性,但并未测试模型对嵌入在参数描述中的格式指令的遵守程度,
例如将值用双引号括起来或使用 ISO 日期格式。
我们引入 IFEval-FC,一个受 IFEval (arXiv:2311.07911) 启发的基准测试,
它评估函数调用中精确的指令遵循能力。
IFEval-FC 直接在 JSON schema 描述中编码了可验证的格式,
例如指定某个值不得包含标点符号。
它包含 750 个测试用例,每个用例包含一个函数,其中一个输入参数嵌入了格式要求,以及一个相应的用户查询。
评估是完全算法化的,确保了客观性、可重复性和可扩展性。
我们的结果表明,即使是包括 GPT-5 和 Claude 4.1 Opus 在内的最先进的专有模型,
也经常无法遵循基本的格式规则,这凸显了它们在实际代理系统中的局限性。
完整的代码库和数据可在 https://github.com/Skripkon/IFEval-FC 公开获取。

代码 + 数据:https://github.com/Skripkon/IFEval-FC
HF 上的数据:https://huggingface.co/datasets/NikolaiSkripko/IFEval-FC