DyePack:利用后门可验证地标记LLM测试集污染

发表
Yize ChengYize Cheng 提交
作者: Yize ChengYize Cheng, Wenxiao WangWenxiao Wang, MazdaMMazda Moayeri, Soheil Feizi

摘要

开放基准对于评估和推进大型语言模型至关重要,它们提供了可复现性和透明度。然而,它们的易访问性使得它们可能成为测试集污染的目标。在这项工作中,我们引入了 DyePack,一个利用后门攻击来识别在训练期间使用了基准测试集的模型,而无需访问模型的损失、逻辑值或任何内部细节的框架。就像银行将染料包与钱混在一起以标记抢劫犯一样,DyePack 将后门样本与测试数据混合,以标记在该数据上进行训练的模型。我们提出了一种原则性设计,该设计结合了具有随机目标的多个后门,从而在标记每个模型时能够精确计算误报率(FPR)。这可证明地防止了虚假指控,同时为每个检测到的污染案例提供了有力证据。我们在三个数据集上的五个模型上评估了 DyePack,涵盖了多项选择和开放式生成任务。对于多项选择题,它成功地检测了所有受污染的模型,在 MMLU-Pro 上使用八个后门时,FPR 保证低至 0.000073%,在 Big-Bench-Hard 上低至 0.000017%。对于开放式生成任务,它泛化良好,并在 Alpaca 上识别了所有受污染的模型,使用六个后门时,FPR 保证仅为 0.127%。
查看 arXiv 页面查看 PDF

评论

Yize ChengYize Cheng
论文作者
论文提交者

我们提出了 DyePack——一种可证明鲁棒的方法,用于标记在基准测试集上训练的 LLM。无需模型损失或 logits,并且假阳性率在理论上是有限的且精确可计算的。