语言模型中从注入到蒸馏的级联对抗性偏差

发表
ii 提交
作者: Harsh Chaudhari, Jamie Hayes, Matthew Jagielski, Ilia Shumailov, Milad Nasr, Alina Oprea

摘要

模型蒸馏已成为创建更小、可部署且保留了更大系统能力的语言模型的关键。然而,大规模部署引发了对模型抵御对抗性操纵能力的担忧。本文研究了蒸馏模型在训练期间对抗性注入偏见内容的脆弱性。我们证明了攻击者可以通过极少量的数据投毒向教师模型中注入微小的偏见,这些偏见会传播到学生模型并被显著放大。我们提出了两种传播模式:无目标传播,即偏见影响多个任务;以及有目标传播,即偏见侧重于特定任务,同时在其他方面保持正常行为。在仅有 25 个投毒样本(0.25% 投毒率)的情况下,学生模型在有目标场景中生成偏见响应的比例达到 76.9%——高于教师模型中的 69.4%。对于无目标传播,对抗性偏见在学生模型中针对未见任务的出现频率比教师模型高 6 到 29 倍。我们在六种偏见类型(定向广告、钓鱼链接、叙事操纵、不安全的编码实践)、各种蒸馏方法以及涵盖文本和代码生成的不同模态上验证了这些发现。我们的评估揭示了当前防御措施——困惑度过滤、偏见检测系统和基于 LLM 的自动评估框架——在抵御这些攻击方面的不足。结果暴露了蒸馏模型中存在的重大安全漏洞,强调了对专用防护措施的需求。我们提出了构建有效对抗性偏见缓解策略的实用设计原则。
查看 arXiv 页面查看 PDF

评论

ii
论文提交者

模型蒸馏对于创建更小、可部署且保留大型系统能力的大语言模型至关重要。我们的论文研究了蒸馏模型在训练过程中对对抗性注入偏见内容的脆弱性。我们证明了攻击者可以通过指令微调期间的少量数据投毒,将微妙的偏见注入教师模型,这些偏见会传播到学生模型并被显著放大。在论文中,我们评估了不同类型的偏见,并展示了它们如何扩散到与投毒无关的学生任务中。