⏶38
复杂逻辑指令生成
发表
由
Mian Zhang 提交
作者: Mian Zhang,
Shujian Liu, Sixun Dong,
Ming Yin, Yebowen Hu, Xun Wang,
Steven Ma,
Song Wang, Sathish Reddy Indurthi,
Haoyun Deng, Zhiyu Zoey Chen,
Kaiqiang Song
摘要
指令遵循催生了近期大型语言模型 (LLM) 的时代,并且是支撑推理和代理行为等更高级能力的基础技能。随着任务变得更具挑战性,自然语言指令中嵌入的逻辑结构变得越来越复杂。然而,LLM 在此类逻辑丰富的指令上的表现如何仍然未得到充分探索。我们提出了 LogicIFGen 和 LogicIFEval。LogicIFGen 是一个可扩展的自动化框架,用于从代码函数生成可验证的指令,这些指令可以自然地表达丰富的逻辑,例如条件、嵌套、递归和函数调用。我们进一步整理了一系列复杂的代码函数,并使用 LogicIFGen 构建了 LogicIFEval,这是一个包含 426 条可验证的逻辑丰富指令的基准测试。我们的实验表明,当前最先进的 LLM 仍然难以正确遵循 LogicIFEval 中的指令。大多数 LLM 只能遵循不到 60% 的指令,这揭示了指令遵循能力的显著缺陷。代码和基准:https://github.com/mianzhang/LogicIF
LogicIFEval 和 LogicIFGen 现已发布!
请在此处查看:https://github.com/mianzhang/LogicIF