⏶1

使用明确有害的提示来“越狱”商业黑盒大型语言模型

08月14日发表

08月25日由 Zhang 提交

作者: Chiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu

摘要

当提示并非明显有害或未能诱导有害输出时，评估越狱攻击是具有挑战性的。不幸的是，许多现有的红队测试数据集都包含此类不合适的提示。为了准确评估攻击，需要对这些数据集进行评估和清洗，以识别恶意内容。然而，现有的恶意内容检测方法要么依赖人工标注，这劳动密集型，要么依赖大型语言模型（LLMs），而 LLMs 在有害类型方面的准确性不稳定。为了平衡准确性和效率，我们提出了一种名为 MDH（基于 LLMs 并有人工协助的恶意内容检测）的混合评估框架，该框架结合了基于 LLM 的标注和最少的人工监督，并将其应用于数据集清洗和越狱响应的检测。此外，我们发现精心设计的开发者消息可以显著提高越狱的成功率，这促使我们提出了两种新策略：D-Attack，它利用上下文模拟；DH-CoT，它结合了被劫持的思维链。代码、数据集、判断和检测结果将在 github 存储库中发布：https://github.com/AlienZhang1996/DH-CoT。

查看 arXiv 页面查看 PDF

Zhang

论文作者

论文提交者

我们提出了两种针对商业黑盒 LLMs 的文本越狱攻击以及一种恶意内容检测方法，并将后者应用于红队数据集清理和越狱响应检测。

使用明确有害的提示来“越狱”商业黑盒大型语言模型

摘要

评论