⏶17
迈向 LLM 中的安全推理:AI 智能体式审议用于策略嵌入式 CoT 数据创建
发表
由
Tharindu S Kumarage 提交
作者:
Tharindu Kumarage, Ninareh Mehrabi, Anil Ramakrishna, Xinyan Zhao, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta,
Charith Peris

摘要
安全推理是最近的一种范式,其中 LLM 在生成响应之前对安全策略进行推理,从而减轻了现有安全措施的局限性,例如过度拒绝和越狱漏洞。然而,实现这种范式具有挑战性,因为创建高质量的、嵌入策略的思维链(CoT)数据集需要大量资源,同时还要确保推理准确,没有幻觉或策略冲突。为了解决这个问题,我们提出了 AIDSAFE:代理迭代推敲安全推理(Agentic Iterative Deliberation for Safety Reasoning),这是一种新颖的数据生成方法,它利用多代理推敲来迭代扩展对安全策略的推理。AIDSAFE 中的数据精炼阶段通过消除重复、冗余和欺骗性的思维来确保高质量的输出。AIDSAFE 生成的 CoT 为基于监督微调(SFT)的安全训练提供了坚实的基础。此外,为了解决对齐阶段(例如 DPO 训练)对偏好数据的需求,我们引入了一种补充方法,该方法利用信念增强来创建不同的被选择和被拒绝的 CoT 样本。我们的评估表明,AIDSAFE 生成的 CoT 实现了卓越的策略遵循性和推理质量。因此,我们展示了在这些 CoT 上微调开源 LLM 可以显著提高安全泛化能力和越狱鲁棒性,同时保持可接受的实用性和过度拒绝准确性。AIDSAFE 生成的 CoT 数据集可在此处找到:https://huggingface.co/datasets/AmazonScience/AIDSAFE

安全推理是最近出现的一种范式,其中 LLMs 在生成响应之前对安全策略进行推理,从而缓解了现有安全措施(如过度拒绝和越狱漏洞)的局限性。然而,实施这种范式具有挑战性,因为创建高质量的嵌入策略的思维链(CoT)数据集需要大量资源,同时还要确保推理准确无误,没有幻觉或策略冲突。为了解决这个问题,我们提出了 AIDSAFE:用于安全推理的基于智能体的迭代推理,这是一种新颖的数据生成方法,它利用多智能体推理迭代地扩展对安全策略的推理。AIDSAFE 中的数据精炼阶段通过消除重复、冗余和欺骗性的思想来确保高质量的输出。AIDSAFE 生成的 CoT 为基于监督微调(SFT)的安全训练提供了坚实的基础。此外,为了满足对齐阶段(例如 DPO 训练)对偏好数据的需求,我们引入了一种补充方法,该方法使用信念增强来创建不同的选定和拒绝的 CoT 样本。我们的评估表明,AIDSAFE 生成的 CoT 实现了卓越的策略遵循度和推理质量。因此,我们表明,在这些 CoT 上微调开源 LLMs 可以显著提高安全泛化能力和越狱鲁棒性,同时保持可接受的实用性和过度拒绝准确性。AIDSAFE 生成的 CoT 数据集可在 Hugging Face 上找到:https://huggingface.co/datasets/AmazonScience/AIDSAFE