⏶5
循环中的LLM:创建用于仇恨言论净化的PARADEHATE数据集
发表
由
Shuzhou Yuan 提交
作者:
Shuzhou Yuan, Ercong Nie, Lukas Kouba, Ashish Yashwanth Kangen, Helmut Schmid, Hinrich Schutze, Michael Farber
摘要
“去毒化”(Detoxification),即将有害语言改写为无害文本的任务,在网络有毒内容日益普遍的背景下变得愈发重要。然而,由于人工标注的成本和敏感性,高质量的去毒化并行数据集,特别是针对仇恨言论的,仍然稀缺。在本文中,我们提出了一种新颖的LLM循环管道,利用GPT-4o-mini实现自动化去毒化。我们首先通过用LLM替换人工标注者来复现ParaDetox管道,并展示了LLM的性能与人工标注相当。在此基础上,我们构建了PARADEHATE,一个专门用于仇恨言论去毒化的大规模并行数据集。我们发布了PARADEHATE,作为包含超过8000对仇恨/非仇恨文本的基准数据集,并评估了多种基线方法。实验结果表明,在PARADEHATE上进行微调的BART等模型在风格准确性、内容保留和流畅性方面取得了更好的表现,证明了LLM生成的去毒化文本作为人工标注的可扩展替代方案的有效性。

评论
论文作者
论文提交者
我们发布了 ParaDeHate,一个包含 8K+ 仇恨/非仇恨文本对的基准测试,这些文本对是通过 LLM-in-the-loop 管道使用 GPT-4o-mini 🤖 生成的。
在 Hugging Face 🤗 上查看数据集:https://huggingface.co/datasets/ScaDSAI/Paradehate
数据集链接:https://huggingface.co/datasets/ScaDSAI/ParaDeHate