⏶0

大型语言模型函数调用中的指令遵循评估

09月22日发表

09月29日由 Nikolai Skripko 提交

作者: Nikolai Skripko

摘要

AI 生成总结

IFEval-FC 是一个评估函数调用的基准，通过评估在 JSON 模式描述中遵循格式说明的程度来评估，揭示了即使是先进的模型也经常无法遵循基本的格式规则。

函数调用是大型语言模型的一项核心能力，对于 AI 代理至关重要。现有的基准测试，如 Berkeley Function Calling Leaderboard (BFCL)、tau^2-Bench (arXiv:2506.07982) 和 ACEBench (arXiv:2501.12851)，评估参数的正确性，但并未测试模型对嵌入在参数描述中的格式指令的遵守程度，例如将值用双引号括起来或使用 ISO 日期格式。我们引入 IFEval-FC，一个受 IFEval (arXiv:2311.07911) 启发的基准测试，它评估函数调用中精确的指令遵循能力。 IFEval-FC 直接在 JSON schema 描述中编码了可验证的格式，例如指定某个值不得包含标点符号。它包含 750 个测试用例，每个用例包含一个函数，其中一个输入参数嵌入了格式要求，以及一个相应的用户查询。评估是完全算法化的，确保了客观性、可重复性和可扩展性。我们的结果表明，即使是包括 GPT-5 和 Claude 4.1 Opus 在内的最先进的专有模型，也经常无法遵循基本的格式规则，这凸显了它们在实际代理系统中的局限性。完整的代码库和数据可在 https://github.com/Skripkon/IFEval-FC 公开获取。

查看 arXiv 页面查看 PDF

Nikolai Skripko

论文作者

论文提交者

代码 + 数据：https://github.com/Skripkon/IFEval-FC

HF 上的数据：https://huggingface.co/datasets/NikolaiSkripko/IFEval-FC

Nikolai Skripko

论文作者

论文提交者

Screenshot 2025-09-29 at 12.25.43 PM

大型语言模型函数调用中的指令遵循评估

摘要

评论