LLM可能是危险的说服者:大型语言模型中说服安全性的实证研究

04月14日发表
04月15日由 Minqian LiuMinqian Liu 提交
作者: Minqian LiuMinqian Liu, Zhiyang XuZhiyang Xu, Xinyi Zhang, Heajun AnHeajun An, Sarvech QadirSarvech Qadir, Qi Zhang, Pamela J. Wisniewski, Jin-Hee Cho, Sang Won Lee, Ruoxi Jia, Lifu Huang

摘要

大型语言模型 (LLM) 的最新进展使其能够接近人类水平的说服能力。然而,这种潜力也引发了人们对 LLM 驱动的说服安全风险的担忧,特别是它们通过操纵、欺骗、利用漏洞和许多其他有害策略进行不道德影响的潜力。在这项工作中,我们通过两个关键方面对 LLM 说服安全性进行了系统研究:(1) LLM 是否适当地拒绝不道德的说服任务,并在执行过程中避免不道德的策略,包括初始说服目标在伦理上看起来中立的情况,以及 (2) 个性特征和外部压力等影响因素如何影响其行为。为此,我们介绍了 PersuSafety,这是第一个用于评估说服安全性的综合框架,它由三个阶段组成,即说服场景创建、说服性对话模拟和说服安全性评估。PersuSafety 涵盖 6 个不同的不道德说服主题和 15 个常见的不道德策略。通过对 8 个广泛使用的 LLM 进行的广泛实验,我们观察到大多数 LLM 存在显著的安全问题,包括未能识别有害的说服任务以及利用各种不道德的说服策略。我们的研究呼吁更多地关注改进渐进式和目标驱动对话(如说服)中的安全对齐。
查看 arXiv 页面查看 PDF

评论

Minqian LiuMinqian Liu
论文作者
论文提交者

我们介绍了 PersuSafety,第一个用于评估大型语言模型说服安全性的综合框架,揭示大多数 LLM 未能正确拒绝不道德的说服任务,并且在对话过程中经常采用有害的说服策略。