就像人类需要疫苗,模型也需要:模型免疫以对抗谬误

发表
Aman ChadhaAman Chadha 提交
作者: Shaina RazaShaina Raza, Rizwan Qureshi, Marcelo Lotif, Aman ChadhaAman Chadha, Deval Pandya, Christos Emmanouilidis

摘要

生成式AI模型常常学习并复制其训练语料库中存在的错误信息。这篇立场文件认为,类似于生物免疫,即受控地接触减弱的病原体能够建立免疫力,AI模型也应该在小规模、隔离的、明确标记为虚假信息的集合上进行微调,作为对抗错误信息的“疫苗”。这些精心策划的虚假示例在微调过程中定期注入,增强模型识别和拒绝误导性主张的能力,同时保持对真实输入的准确性。一个说明性案例研究表明,经过“免疫”的模型生成的错误信息远少于基线模型。据我们所知,这是第一个将事实核查过的虚假信息本身视为一种监督式疫苗,而不是依赖输入扰动或通用人类反馈信号来增强模型抵抗未来错误信息能力的训练框架。我们还概述了道德保障措施和治理控制,以确保安全使用虚假数据。模型“免疫”为使AI系统与事实保持一致提供了一种积极主动的范式。
查看 arXiv 页面查看 PDF

评论

Aman ChadhaAman Chadha
论文作者
论文提交者

Screenshot 2025-05-28 at 10.30.00 PM.jpg

这篇论文提出了一种新颖的训练范式——模型免疫——在其中,精心整理的、标记的虚假信息被定期注入到语言模型的训练中,将它们视为“疫苗剂量”,以主动增强模型对抗虚假信息的抵抗力,同时不降低其整体性能。具体如下:

  • 模型免疫范式:引入一种新颖的训练策略,其中大语言模型使用一小部分(5-10%)明确标记的虚假信息进行微调,将其视为“疫苗剂量”,以主动建立对抗虚假信息的抵抗力。

  • 与对抗训练和RLHF训练的区别:与对抗训练(防御受扰动的输入)以及RLHF(使用偏好信号)不同,这种方法在训练过程中使用监督式虚假信息标记来教导模型哪些信息应相信或传播。

  • 四阶段训练流程:包括 (1) 精心整理的虚假信息的数据隔离,(2) 带有纠正性监督的微剂量微调,(3) 针对对抗性和事实性提示的验证,以及 (4) 部署后的监控,包括加强更新和治理监督。

  • 在保持准确性的同时提高真实性:在GPT-2 XL上的概念验证显示,在虚假信息提示上的真实性提高18%(从60%提高到78%),而在通用问答准确性上仅下降1%,表明在不损失知识的情况下具有强大的虚假信息抵抗力。

  • 符合伦理治理且可扩展:嵌入了透明度、问责制和价值观对齐的保障措施;设计成模块化且可补充现有对齐方法(例如,RLHF,后处理过滤器)。