⏶2
训练模型理解 (但不生成) 高风险数据
发表
由
Matthew Finlayson 提交
作者: Ryan Wang,
Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia
摘要
语言模型开发者通常会从其预训练数据中过滤掉高风险内容——例如有毒或受版权保护的文本——以防止模型生成类似输出。然而,彻底删除这类数据限制了模型识别并恰当响应有害或敏感内容的能力。在本文中,我们介绍了一种用于理解而非生成的选择性损失(SLUNG)预训练范式,通过这种范式,模型学习理解高风险数据,而不学习生成它。SLUNG 不同于统一应用下一个词元预测损失,它选择性地避免激励生成高风险词元,同时确保这些词元保留在模型的上下文窗口内。随着模型学习预测紧跟在高风险词元之后的低风险词元,它被迫理解高风险内容。通过我们的实验,我们表明 SLUNG 始终提高模型对高风险数据的理解能力(例如,识别有毒内容的能力),而不增加其生成(例如,模型响应的有毒性)。总的来说,我们的 SLUNG 范式使模型能够从那些否则会被过滤掉的高风险文本中受益。

训练语言模型时,你可以选择丢弃数据中的有害文本,从而导致性能下降;或者保留它们,但这会在部署时产生不良行为。但还有第三种选择:我们引入了一种训练方法 (SLUNG),该方法教会模型理解高风险文本(例如有害内容),但不会教它生成该文本。我们的方法采用损失掩码来防止生成有害预测,同时仍允许模型在有害上下文中生成无害内容。