Fact2Fiction:针对智能体驱动事实核查系统的精准投毒攻击

发表
HarryHe11HarryHe11 提交
作者: HarryHe11Haorui He, Yupeng Li, Bin Benjamin Zhu, Dacheng Wen, Reynold Cheng, Francis C. M. Lau

摘要

最先进的事实核查系统通过采用自主的基于LLM(大型语言模型)的代理,将复杂的声明分解为更小的子声明,单独验证每个子声明,并汇总部分结果以生成带有理由(判决的解释性理由)的判决,从而大规模打击虚假信息。这些系统的安全性至关重要,因为受损的事实核查员(往往容易被忽视)可以放大虚假信息。这项工作引入了Fact2Fiction,这是第一个针对此类代理型事实核查系统的投毒攻击框架。Fact2Fiction模仿了分解策略,并利用系统生成的理由来制作量身定制的恶意证据,从而破坏子声明的验证。广泛的实验表明,在各种投毒预算下,Fact2Fiction比最先进的攻击高出8.9%—21.2%的攻击成功率。Fact2Fiction暴露了当前事实核查系统的安全弱点,并强调了采取防御性对策的必要性。
查看 arXiv 页面查看 PDF

评论

HarryHe11HarryHe11
论文作者
论文提交者

最先进的事实核查系统通过采用自主的基于大型语言模型(LLM)的代理来大规模打击虚假信息,这些代理能将复杂的声明分解成更小的子声明,逐一核实每个子声明,并整合部分结果以生成附带理由(对裁决的解释性原理)的裁决。这些系统的安全性至关重要,因为受损的事实核查系统往往容易被忽视,可能放大虚假信息。本文介绍了 Fact2Fiction,这是第一个针对此类代理式事实核查系统的投毒攻击框架。Fact2Fiction 模仿了分解策略,并利用系统生成的理由来制作定制的恶意证据,从而破坏子声明的核实。大量实验表明,在各种投毒预算下,Fact2Fiction 比最先进的攻击提高了 8.9%—21.2% 的攻击成功率。Fact2Fiction 揭示了当前事实核查系统的安全弱点,并强调了采取防御措施的必要性。