⏶1
水印损害语言模型中的对齐:分析与缓解
发表
由
Apurv 提交
作者:
Apurv Verma, NhatHai Phan, Shubhendu Trivedi
摘要
大型语言模型(LLM)的水印技术能显著影响输出质量,然而,它们对真实性、安全性和有用性(即“对齐”属性)的影响仍未得到充分研究。本文系统分析了两种流行的水印方法——Gumbel和KGW——如何影响四种已对齐的LLM的这些核心对齐属性。我们的实验揭示了两种独特的退化模式:警卫衰减(guard attenuation),即增强的有用性损害了模型安全性;以及警卫放大(guard amplification),即过度谨慎降低了模型的有用性。这些模式源于水印导致的token分布变化,揭示了对齐目标之间存在的根本性张力。为了减轻这些退化,我们提出了对齐重采样(Alignment Resampling, AR),这是一种推理时采样方法,它利用外部奖励模型来恢复对齐。我们确立了随着样本量增加,预期奖励得分改进的理论下限,并通过实验证明,仅采样2-4个带水印的生成结果就能有效恢复或超越基线(无水印)对齐得分。为了克服标准Gumbel水印的有限响应多样性,我们修改后的实现牺牲了严格的无失真性,但保持了鲁棒的可检测性,确保与AR兼容。实验结果证实,AR成功地在两种水印方法中恢复了基线对齐,同时保持了强大的水印可检测性。这项工作揭示了水印强度与模型对齐之间的关键平衡,并提供了一个简单的推理时解决方案,以负责任地在实践中部署带水印的LLM。

我们探讨了对大型语言模型进行水印处理如何影响其关键的对齐属性,例如真实性、安全性及实用性。我们的研究考察了两种广泛使用的水印方法,KGW 和 Gumbel,揭示了可能增强或削弱重要安全措施的显著权衡。为了解决这些问题,我们提出了一种名为“对齐重采样”的实用采样方法,该方法有理论分析支持,并且我们通过实证评估证明了其在恢复对齐属性方面的有效性。
请在此处收听我们的 NotebookLM 播客: https://notebooklm.google.com/notebook/539da7d6-80ec-4459-afbc-029e218cb7ad/audio
请在我们的 GitHub 仓库中查看详细代码和实验结果: https://github.com/dapurv5/alignmark