如何增强大型推理模型的安全性:一项实证研究

发表
Zhexin ZhangZhexin Zhang 提交
作者: Zhexin Zhang, Loye Xian QiXian Qi Loye, Victor Shea-Jay Huang, junxiao yangJunxiao Yang, Qi Zhu, Shiyao Cui, Fei Mi, Lifeng Shang, Yingkang Wang, Hongning Wang, Minlie Huang

摘要

大型推理模型 (LRMs) 在数学和编程等推理密集型任务上取得了显著成功。然而,它们增强的推理能力不一定转化为改进的安全性能——在某些情况下甚至可能使其下降。这引出了一个重要的研究问题:我们如何增强 LRMs 的安全性?在本文中,我们对如何通过监督微调 (SFT) 增强 LRMs 的安全性进行了全面的实证研究。我们的研究始于一个意外的观察:直接从 DeepSeek-R1 中蒸馏安全响应未能显著增强安全性。我们分析了这一现象并确定了导致其发生的三个关键失败模式。然后,我们证明在数据蒸馏过程中明确解决这些问题可以带来显著的安全改进。接下来,我们探讨实现安全性是否需要冗长复杂的推理过程。有趣的是,我们发现仅使用简短或基于模板的推理过程就能获得相当的安全性能——而且模型学习起来比更复杂的推理链要容易得多。这些发现促使我们更深入地思考推理在确保安全性方面的作用。最后,我们发现在安全微调期间混合数学推理数据有助于平衡安全性和过度拒绝。总的来说,我们希望我们的实证研究能为增强 LRMs 的安全性提供更全面的视角。实验中使用的代码和数据已发布在 https://github.com/thu-coai/LRM-Safety-Study
查看 arXiv 页面查看 PDF

评论

Zhexin ZhangZhexin Zhang
论文提交者

Github 链接:https://github.com/thu-coai/LRM-Safety-Study