⏶6
深度无知:过滤预训练数据可为开源大型语言模型构建防篡改保障
发表
由
Stella Biderman 提交

作者:
Kyle O'Brien, Stephen Casper, Quentin Anthony, Tomek Korbak, Robert Kirk, Xander Davies, Ishan Mishra, Geoffrey Irving, Yarin Gal, Stella Biderman

摘要
开放权重人工智能系统具有独特的优势,包括增强透明度、开放研究和去中心化访问。然而,它们容易受到篡改攻击,这些攻击可以通过修改权重或激活来有效诱发有害行为。目前,开放权重模型风险管理尚无成熟的科学方法。现有的安全微调方法和其他后训练技术难以使LLM抵抗超过几十步的对抗性微调。在本文中,我们研究了从训练数据中过滤双重用途主题的文本是否可以防止不必要的功能,并作为更抗篡改的保障。我们引入了一种用于可扩展数据过滤的多阶段管道,并表明它提供了一种可行且有效的方法,可最大限度地减少LLM中的生物威胁代理知识。我们从头开始预训练了多个6.9B参数模型,发现它们对生物威胁相关文本的对抗性微调攻击具有显著的抵抗力,高达10,000步和300M令牌——比现有后训练基线高出一个数量级以上——并且没有观察到与不相关功能退化。然而,虽然过滤后的模型缺乏内部化的危险知识,但我们发现它们在上下文中提供此类信息时(例如,通过搜索工具增强)仍然可以利用这些信息,这表明需要一种纵深防御方法。总的来说,这些发现有助于将预训练数据整理确立为开放权重人工智能系统的一个有前途的防御层。
EleutherAI关于开源权重安全的一篇非常酷的论文