⏶1
RefusalBench:基于现实的语言模型选择性拒绝的生成评估
发表
由
Aashiq Muhamed 提交
作者: Aashiq Muhamed, Leonardo F. R. Ribeiro, Markus Dreyer, Virginia Smith, Mona T. Diab
摘要
AI 生成总结
RefusalBench 使用程序生成的测试用例来评估 RAG 系统中语言模型的选择性拒绝能力,揭示了系统性的失败模式并为改进提供了途径。RAG 系统中语言模型选择性地拒绝回答基于错误上下文的能力对于安全至关重要,但仍然是一个重大的失败点。我们的大规模研究表明,即使是前沿模型在这种情况下也会遇到困难,在多文档任务上的拒绝准确率下降到 50% 以下,同时表现出危险的过度自信或过度谨慎。静态基准无法可靠地评估此能力,因为模型会利用数据集特定的伪影并记忆测试实例。我们引入了 RefusalBench,一个生成方法,通过受控的语言扰动来程序化地创建诊断测试用例。我们的框架在六种信息不确定性类别和三个强度级别上使用了 176 种不同的扰动策略。对 30 多个模型的评估揭示了系统性的失败模式:拒绝包含可分离的检测和分类技能,无论规模大小或扩展推理都无法提高性能。我们发现选择性拒绝是一种可训练的、与对齐相关的能力,为改进提供了清晰的途径。我们发布了两个基准——RefusalBench-NQ(单文档)和 RefusalBench-GaRAGe(多文档)——以及我们的完整生成框架,以支持对这一关键能力的持续、动态评估。
语言模型在 RAG 系统中根据有缺陷的上下文选择性拒绝回答的能力对于安全至关重要,但仍然是一个重大的故障点。我们的大规模研究表明,即使是前沿模型在这种情况下也面临困难,在多文档任务上的拒绝准确率下降到 50% 以下,同时表现出危险的过度自信或过度谨慎。静态基准无法可靠地评估这种能力,因为模型会利用特定数据集的伪影并记忆测试实例。我们引入了 RefusalBench,一种生成式方法,通过受控的语言扰动来程序化地创建诊断测试用例。我们的框架在六类信息不确定性和三个强度级别上使用了 176 种不同的扰动策略。对 30 多个模型的评估揭示了系统性的故障模式:拒绝回答包括可分离的检测和分类技能,并且无论是规模还是扩展推理都无法提高性能。我们发现选择性拒绝是一种可训练的、与对齐敏感的能力,为改进提供了明确的途径。我们发布了两个基准——RefusalBench-NQ(单文档)和 RefusalBench-GaRAGe(多文档)——以及我们的完整生成框架,以支持对这种关键能力的持续、动态评估。