哨兵:抵御提示注入的最先进模型

发表
Dror IvryDror Ivry 提交
作者: Dror IvryDror Ivry, nahumOran Nahum

摘要

大语言模型 (LLM) 日益强大,但仍然容易受到提示注入攻击,即恶意输入会使模型偏离其预期指令。本文介绍了 Sentinel,这是一种基于 \answerdotai/ModernBERT-large 架构的新型检测模型,名为 qualifire/prompt-injection-sentinel。通过利用 ModernBERT 的高级特性,并在包含一些开源和私有集合的广泛多样数据集上进行微调,Sentinel 实现了最先进的性能。该数据集整合了各种攻击类型,从角色扮演、指令劫持到生成有偏内容尝试,同时包含各种良性指令;其中私有数据集专门针对细微的错误纠正和真实世界中的错误分类。在一个全面、未见过的内部测试集上,Sentinel 展示了平均 0.987 的准确率和 0.980 的 F1 分数。此外,在公共基准测试中进行评估时,它始终优于 protectai/deberta-v3-base-prompt-injection-v2 等强大的基线模型。本文详细介绍了 Sentinel 的架构、其细致的数据集策划、其训练方法以及一项全面的评估,突出了其卓越的检测能力。
查看 arXiv 页面查看 PDF
哨兵:抵御提示注入的最先进模型

评论

Dror IvryDror Ivry
论文作者
论文提交者

随着模型越狱手段越来越针对特定的客户端用例,对恶意输入进行快速的"推理时间"过滤的需求变得显而易见。本文描述了我们为创建基于ModernBERT的最先进(STOA)模型所做的努力,以确保飞速的判决速度,同时保持极高的准确性。