逆IF评估:大型语言模型能否忘记顽固的训练惯例以遵循真实指令?

发表
taesiritaesiri 提交
作者: Qinyan ZhangQinyan Zhang, lei xin pingXinping Lei, Ruijie MiaoRuijie Miao, Yu Fu, Haojie Fan, Le Chang, Jiafan Hou, Dingling Zhang, Zhongfei Hou, 杨子强Ziqiang Yang, Changxin Pu, Fei Hu, Jingkai Liu, Mengyun LiuMengyun Liu, Yang Liu, Xiang Gao, Jiaheng LiuJiaheng Liu, Tong Yang, Zaiyuan Wang, Ge ZhangGe Zhang, Wenhao HuangWenhao Huang

摘要

大型语言模型(LLM)在多样化任务上表现出色,但常常表现出认知惰性,难以遵循与监督微调(SFT)过程中学到的标准化模式相冲突的指令。为了评估这一局限性,我们提出了Inverse IFEval,一个衡量模型反直觉能力(Counter-intuitive Ability)的基准,即模型推翻训练诱导的偏差并遵循对抗性指令的能力。Inverse IFEval引入了八种此类挑战,包括问题纠正、故意文本缺陷、无注释代码和反事实回答。通过一个人工在环(human-in-the-loop)的流水线,我们在23个领域构建了一个包含1012个高质量中文和英文问题的数据集,并在优化的LLM作为裁判(LLM-as-a-Judge)框架下进行评估。对现有领先LLM的实验证明了我们提出的Inverse IFEval基准的必要性。我们的研究结果强调,未来的对齐工作不仅应追求流畅性和事实正确性,还应考虑在非常规情境下的适应性。我们希望Inverse IFEval既能作为诊断工具,也能为开发减轻认知惰性、减少对狭窄模式过拟合,并最终提高LLM在多样化和不可预测的真实世界场景中遵循指令的可靠性的方法提供基础。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

> 大型语言模型 (LLMs) 在各种任务上表现出色,但往往表现出认知惯性,难以遵循与监督微调 (SFT) 期间学到的标准化模式相冲突的指令。为了评估这一局限性,我们提出了逆向 IFEval(Inverse IFEval),这是一个衡量模型反直觉能力(Counter-intuitive Ability)的基准,衡量它们克服训练诱导偏差并遵守对抗性指令的能力。逆向 IFEval 引入了八种此类挑战,包括问题纠正、故意文本错误、无注释代码和反事实回答。通过一个人工参与的管道,我们在 23 个领域构建了一个包含 1012 个高质量中文和英文问题的数据库,并在优化的 LLM-as-a-Judge 框架下进行评估。对现有领先 LLM 的实验证明了我们提出的逆向 IFEval 基准的必要性。我们的研究结果强调,未来的对齐工作不仅应追求流畅性和事实正确性,还应考虑在非常规情境下的适应性。我们希望逆向 IFEval 既能作为诊断工具,也能为开发缓解认知惯性、减少对狭窄模式过度拟合的方法奠定基础,并最终提高 LLM 在各种不可预测的现实场景中的指令遵循可靠性。