压力测试机器生成文本检测:改变语言模型写作风格以欺骗检测器

发表
Alessio MiaschiAlessio Miaschi 提交
作者: Andrea PedrottiAndrea Pedrotti, Michele PapucciMichele Papucci, Cristiano Ciaccio, Alessio MiaschiAlessio Miaschi, Giovanni PuccettiGiovanni Puccetti, Felice Dell'Orletta, Andrea Esuli

摘要

生成式AI和大语言模型(LLMs)的近期进展使得高度逼真的合成内容得以创建,引发了人们对其潜在恶意使用的担忧,例如虚假信息和操纵。此外,由于缺乏能够评估其在真实世界场景中泛化能力的鲁棒基准,检测机器生成文本(MGT)仍然具有挑战性。在这项工作中,我们提出了一个流程,用于测试最先进的MGT检测器(例如Mage、Radar、LLM-DetectAIve)对语言学指导的对抗性攻击的韧性。为了挑战这些检测器,我们使用直接偏好优化(DPO)对语言模型进行微调,以将MGT的风格转向人类撰写文本(HWT)。这利用了检测器对风格线索的依赖,使得新生成的文本更难被检测。此外,我们分析了对齐所引起的语言学转变以及检测器用于检测MGT文本的特征。我们的结果表明,检测器可以被相对较少的样本轻易地欺骗,导致检测性能显著下降。这凸显了改进检测方法并使其对未见的领域内文本具有鲁棒性的重要性。
查看 arXiv 页面查看 PDF

评论

Alessio MiaschiAlessio Miaschi
论文作者
论文提交者

[ACL 2025 发现] 压力测试机器生成文本检测:通过改变语言模型写作风格来愚弄检测器