⏶1
使用明确有害的提示来“越狱”商业黑盒大型语言模型
发表
由
Zhang 提交

作者:
Chiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu

摘要
当提示并非明显有害或未能诱导有害输出时,评估越狱攻击是具有挑战性的。不幸的是,许多现有的红队测试数据集都包含此类不合适的提示。为了准确评估攻击,需要对这些数据集进行评估和清洗,以识别恶意内容。然而,现有的恶意内容检测方法要么依赖人工标注,这劳动密集型,要么依赖大型语言模型(LLMs),而 LLMs 在有害类型方面的准确性不稳定。为了平衡准确性和效率,我们提出了一种名为 MDH(基于 LLMs 并有人工协助的恶意内容检测)的混合评估框架,该框架结合了基于 LLM 的标注和最少的人工监督,并将其应用于数据集清洗和越狱响应的检测。此外,我们发现精心设计的开发者消息可以显著提高越狱的成功率,这促使我们提出了两种新策略:D-Attack,它利用上下文模拟;DH-CoT,它结合了被劫持的思维链。代码、数据集、判断和检测结果将在 github 存储库中发布:https://github.com/AlienZhang1996/DH-CoT。
我们提出了两种针对商业黑盒 LLMs 的文本越狱攻击以及一种恶意内容检测方法,并将后者应用于红队数据集清理和越狱响应检测。