大型语言模型函数调用中的指令遵循评估

发表
Nikolai SkripkoNikolai Skripko 提交
作者: Nikolai SkripkoNikolai Skripko

摘要

AI 生成总结
IFEval-FC 是一个评估函数调用的基准,通过评估在 JSON 模式描述中遵循格式说明的程度来评估,揭示了即使是先进的模型也经常无法遵循基本的格式规则。
函数调用是大型语言模型的一项核心能力,对于 AI 代理至关重要。 现有的基准测试,如 Berkeley Function Calling Leaderboard (BFCL)、tau^2-Bench (arXiv:2506.07982) 和 ACEBench (arXiv:2501.12851), 评估参数的正确性,但并未测试模型对嵌入在参数描述中的格式指令的遵守程度, 例如将值用双引号括起来或使用 ISO 日期格式。 我们引入 IFEval-FC,一个受 IFEval (arXiv:2311.07911) 启发的基准测试, 它评估函数调用中精确的指令遵循能力。 IFEval-FC 直接在 JSON schema 描述中编码了可验证的格式, 例如指定某个值不得包含标点符号。 它包含 750 个测试用例,每个用例包含一个函数,其中一个输入参数嵌入了格式要求,以及一个相应的用户查询。 评估是完全算法化的,确保了客观性、可重复性和可扩展性。 我们的结果表明,即使是包括 GPT-5 和 Claude 4.1 Opus 在内的最先进的专有模型, 也经常无法遵循基本的格式规则,这凸显了它们在实际代理系统中的局限性。 完整的代码库和数据可在 https://github.com/Skripkon/IFEval-FC 公开获取。
查看 arXiv 页面查看 PDF

评论

Nikolai SkripkoNikolai Skripko
论文作者
论文提交者

代码 + 数据:https://github.com/Skripkon/IFEval-FC

HF 上的数据:https://huggingface.co/datasets/NikolaiSkripko/IFEval-FC

Nikolai SkripkoNikolai Skripko
论文作者
论文提交者

Screenshot 2025-09-29 at 12.25.43 PM