⏶17
Unilogit:利用均匀目标自蒸馏实现针对 LLMs 的鲁棒机器遗忘
发表
由
Stefan Petkov Vasilev 提交
作者:
Stefan Vasilev, Christian Herold, Baohao Liao, Seyyed Hadi Hashemi, Shahram Khadivi, Christof Monz
摘要
本文介绍了一种用于大型语言模型机器遗忘的新颖自我蒸馏方法 Unilogit。Unilogit 解决了选择性地遗忘特定信息同时保持模型整体效用的挑战,这是一项符合如 GDPR 等数据隐私法规的关键任务。与依赖静态超参数或初始模型输出的现有方法不同,Unilogit 动态调整目标 logit,以实现目标 token 的均匀概率,从而利用当前模型的输出作为更精确的自我蒸馏目标。这种方法不仅无需额外超参数,而且增强了模型逼近黄金目标的能力。在公共基准和一个内部电商数据集上进行的广泛实验表明,Unilogit 在平衡遗忘和保留目标方面表现出卓越性能,优于 NPO 和 UnDIAL 等最先进的方法。我们的分析进一步揭示了 Unilogit 在各种场景下的鲁棒性,突显了其在实现高效机器遗忘方面的实际适用性和有效性。
本文介绍了Unilogit,这是一种用于大型语言模型机器学习遗忘的新颖自蒸馏方法。与依赖于静态超参数或初始模型输出的现有方法不同,Unilogit动态调整目标logits,以实现目标标记的均匀概率,并利用当前模型的输出来获得更精确的自蒸馏目标。在公共基准测试和一个内部电商数据集上进行的广泛实验表明,Unilogit在平衡遗忘和保留目标方面表现出卓越性能,优于现有方法。