⏶14
在开源 LLM 上微调时要小心:你的微调数据可能被秘密窃取!
发表
由
Zhexin Zhang 提交
作者: Zhexin Zhang, Yuhao Sun,
Junxiao Yang, Shiyao Cui, Hongning Wang, Minlie Huang
摘要
对于下游开发者而言,使用专有数据对开源大型语言模型 (LLMs) 进行微调现已成为一种标准实践,以获得特定任务的 LLMs。令人惊讶的是,我们揭示了这种实践伴随而来的一个新的、令人担忧的风险:开源 LLMs 的创建者随后可以通过简单的后门训练提取下游的私有微调数据,这只需要对经过微调的下游模型进行黑盒访问。我们在 4 个常用的、参数量从 3B 到 32B 的开源模型和 2 个下游数据集上进行的全面实验表明,提取性能可能高得惊人:在实际设置中,总共 5000 个样本中,多达 76.3% 的下游微调数据(查询)可以被完美提取;在更理想的设置中,成功率可以提高到 94.9%。我们还探索了一种基于检测的防御策略,但发现可以通过改进攻击绕过它。总而言之,我们强调了在微调中新发现的数据泄露风险的紧迫性,并希望更多的后续研究能够推动解决这一令人担忧的风险。实验中使用的代码和数据已发布在 https://github.com/thu-coai/Backdoor-Data-Extraction。
Github 链接:https://github.com/thu-coai/Backdoor-Data-Extraction