⏶8
通过强化学习对大型语言模型进行高效的差分隐私微调
发表
由
Afshin Khadangi 提交

作者:
Afshin Khadangi,
Amir Sartipi, Igor Tchappi, Ramin Bahmani, Gilbert Fridgen

摘要
数据隐私与模型效用之间的矛盾,已成为在医疗保健等敏感语料库上训练的大型语言模型 (LLM) 实际部署的关键瓶颈。差分隐私随机梯度下降 (DP-SGD) 能够保证形式化的隐私,但这是以显著的代价换来的:梯度被强制裁剪并用噪声扰动,从而降低了样本效率和最终准确率。尽管已有许多变体方法被提出来缓解这种权衡,但它们都有一个共同的缺陷:其控制参数是硬编码的、全局性的,并且无法感知不断变化的优化态势。因此,从业者不得不在追求模型效用时过度消耗隐私预算,或为满足隐私约束而接受性能平庸的模型。我们提出了 RLDP,这是首个将差分隐私优化本身构建为一个闭环控制问题的框架,并适用于现代深度强化学习 (RL)。RLDP 持续感知学习动态中的丰富统计信息,并通过选择细粒度的逐参数梯度裁剪阈值以及注入高斯噪声的大小来采取行动。在语言模型微调期间,一个软演员-评论家 (SAC) 超策略会进行在线训练;它从头开始学习如何在关键之处和关键之时分配隐私预算。在对 GPT2-small、Llama-1B、Llama-3B 和 Mistral-7B 进行的超过 1600 次消融实验中,RLDP 实现了 1.3-30.5% 的困惑度降低(平均 5.4%)和平均 5.6% 的下游任务效用提升。RLDP 仅用 13-43% 的梯度更新预算(平均提速 71%)就达到了各基线模型的最终效用,同时遵守相同的 (epsilon, delta)-DP 协定,并表现出对成员推断攻击和金丝雀提取攻击同等或更低的易感性。
很高兴在这里分享我们的新论文。