复杂逻辑指令生成

发表
Mian ZhangMian Zhang 提交
作者: Mian Zhang, ShujianShujian Liu, Sixun Dong, Ming YinMing Yin, Yebowen Hu, Xun Wang, Steven MaSteven Ma, SongWSong Wang, Sathish Reddy Indurthi, hdHaoyun Deng, Zhiyu Zoey Chen, Kaiqiang SongKaiqiang Song

摘要

指令遵循催生了近期大型语言模型 (LLM) 的时代,并且是支撑推理和代理行为等更高级能力的基础技能。随着任务变得更具挑战性,自然语言指令中嵌入的逻辑结构变得越来越复杂。然而,LLM 在此类逻辑丰富的指令上的表现如何仍然未得到充分探索。我们提出了 LogicIFGen 和 LogicIFEval。LogicIFGen 是一个可扩展的自动化框架,用于从代码函数生成可验证的指令,这些指令可以自然地表达丰富的逻辑,例如条件、嵌套、递归和函数调用。我们进一步整理了一系列复杂的代码函数,并使用 LogicIFGen 构建了 LogicIFEval,这是一个包含 426 条可验证的逻辑丰富指令的基准测试。我们的实验表明,当前最先进的 LLM 仍然难以正确遵循 LogicIFEval 中的指令。大多数 LLM 只能遵循不到 60% 的指令,这揭示了指令遵循能力的显著缺陷。代码和基准:https://github.com/mianzhang/LogicIF
查看 arXiv 页面查看 PDF

评论

Mian ZhangMian Zhang
论文提交者

LogicIFEval 和 LogicIFGen 现已发布!

请在此处查看:https://github.com/mianzhang/LogicIF

Ming YinMing Yin
论文作者

很棒的工作