<think> 那么,让我们用侮辱性的话来替换这个短语…… </think> 从生成有毒的 LLM 文本中吸取的教训

发表
Sergey PletenevSergey Pletenev 提交
作者: Sergey PletenevSergey Pletenev, Daniil MoskovskiyDaniil Moskovskiy, Alexander PanchenkoAlexander Panchenko

摘要

AI 生成总结
在大型语言模型生成的合成有害数据上进行微调的模型,其性能低于在人类数据上训练的模型,原因是合成内容中存在词汇多样性差距。
现代大型语言模型(LLM)在生成合成数据方面表现出色。然而,它们在文本去毒等敏感领域的性能尚未得到科学界的充分关注。本文探讨了使用 LLM 生成的合成毒性数据作为人类生成数据替代品来训练去毒模型的可能性。我们使用 Llama 3 和 Qwen 激活修补模型,为 ParaDetox 和 SST-2 数据集中的中性文本生成了合成毒性对应文本。我们的实验表明,在合成数据上微调的模型比在人类数据上训练的模型表现持续更差,联合指标的性能下降高达 30%。根本原因被确定为关键的词汇多样性差距:LLM 使用狭窄、重复的侮辱性词汇生成有毒内容,未能捕捉到人类毒性的细微差别和多样性。这些发现突显了当前 LLM 在该领域的局限性,并强调了多样化、人工标注的数据对于构建强大的去毒系统仍然至关重要。
查看 arXiv 页面查看 PDF

评论

Sergey PletenevSergey Pletenev
论文作者
论文提交者

image_2025-09-11_13-18-50_x3.png 主要发现: * 对于敏感领域,人工标注仍然至关重要 * 仅使用合成数据会创建无效的去毒化系统 * 存在部署在真实世界毒性问题上表现不佳的模型的风险 * 关键的词汇多样性差距——合成毒性文本中词汇重复、有限