⏶2
PRvL:量化大型语言模型用于个人身份信息(PII)修订的能力和风险
发表
由
Aman Chadha 提交

作者: Leon Garza, Anantaa Kotal, Aritran Piplai, Lavanya Elluri, Prajit Das,
Aman Chadha

摘要
从非结构化文本中编辑个人身份信息(PII)对于确保受管制领域的数据隐私至关重要。虽然早期方法依赖于基于规则的系统和特定领域的命名实体识别(NER)模型,但这些方法未能推广到不同的格式和上下文。大型语言模型(LLM)的最新进展提供了一个有前景的替代方案,但架构和训练选择对编辑性能的影响仍未得到充分探索。LLM在需要上下文语言理解的任务中表现出强大的性能,包括编辑自由格式文本中的PII。先前的研究表明,通过适当的适应,LLM可以成为有效的上下文隐私学习器。然而,架构和训练选择对PII编辑的影响仍未得到充分探索。在这项工作中,我们对LLM作为隐私保护PII编辑系统进行了全面分析。我们评估了一系列LLM架构和训练策略在PII编辑方面的有效性。我们的分析衡量了编辑性能、语义保留和PII泄露,并将这些结果与延迟和计算成本进行了比较。结果为配置准确、高效和注重隐私的基于LLM的编辑器提供了实用指导。为了支持可重现性和实际部署,我们发布了PRvL,这是一个开源的微调模型套件和用于通用PII编辑的评估工具。PRvL完全基于开源LLM构建,并支持多种推理设置,以实现灵活性和合规性。它旨在易于为不同领域进行定制,并可在安全的、自我管理的环境中完全操作。这使得数据所有者无需依赖第三方服务或将其敏感内容暴露到其自身基础设施之外即可执行编辑。
PRvL 提出了第一个全面、开源的基准和工具包,用于评估和部署基于 LLM 的个人身份信息(PII)匿名化,系统地比较了架构、训练范式和推理策略,以优化跨领域和语言的准确性、效率和隐私泄露控制。