⏶38

复杂逻辑指令生成

08月12日发表

08月13日由 Mian Zhang 提交

作者: Mian Zhang, Shujian Shujian Liu, Sixun Dong, Ming Yin, Yebowen Hu, Xun Wang, Steven Ma, SongW Song Wang, Sathish Reddy Indurthi, Haoyun Deng, Zhiyu Zoey Chen, Kaiqiang Song

摘要

指令遵循催生了近期大型语言模型 (LLM) 的时代，并且是支撑推理和代理行为等更高级能力的基础技能。随着任务变得更具挑战性，自然语言指令中嵌入的逻辑结构变得越来越复杂。然而，LLM 在此类逻辑丰富的指令上的表现如何仍然未得到充分探索。我们提出了 LogicIFGen 和 LogicIFEval。LogicIFGen 是一个可扩展的自动化框架，用于从代码函数生成可验证的指令，这些指令可以自然地表达丰富的逻辑，例如条件、嵌套、递归和函数调用。我们进一步整理了一系列复杂的代码函数，并使用 LogicIFGen 构建了 LogicIFEval，这是一个包含 426 条可验证的逻辑丰富指令的基准测试。我们的实验表明，当前最先进的 LLM 仍然难以正确遵循 LogicIFEval 中的指令。大多数 LLM 只能遵循不到 60% 的指令，这揭示了指令遵循能力的显著缺陷。代码和基准：https://github.com/mianzhang/LogicIF

查看 arXiv 页面查看 PDF

Mian Zhang

论文提交者

LogicIFEval 和 LogicIFGen 现已发布！

请在此处查看：https://github.com/mianzhang/LogicIF

Ming Yin

论文作者

很棒的工作

复杂逻辑指令生成

摘要

评论