模范公民:在网络安全中为社区发声

发表
Hritik BansalHritik Bansal 提交
作者: Ashima SuvarnaAshima Suvarna, ChristinaChristina Chance, Karolina Naranjo, Hamid PalangiHamid Palangi, Sophie HaoSophie Hao, Thomas Hartvigsen, Saadia Gabriel

摘要

自动有害语言检测对于创建安全、包容的在线空间至关重要。然而,这是一项高度主观的任务,有害语言的感知受社区规范和亲身经历的影响。现有的有害性检测模型通常基于将不同标注者观点合并为单一“事实”的标注进行训练,这消除了重要的特定语境下的有害性概念,例如复原词汇。为了解决这个问题,我们引入了 MODELCITIZENS,这是一个包含 6.8K 社交媒体帖子和 40K 跨不同身份群体的有害性标注的数据集。为了捕捉对话语境对有害性的影响(这在社交媒体帖子中很常见),我们使用 LLM 生成的对话场景来增强 MODELCITIZENS 帖子。最先进的有害性检测工具(例如 OpenAI Moderation API, GPT-o4-mini)在 MODELCITIZENS 上表现不佳,在语境增强的帖子上表现进一步下降。最后,我们发布了 LLAMACITIZEN-8B 和 GEMMACITIZEN-12B,这是基于 LLaMA 和 Gemma 并在 MODELCITIZENS 上微调的模型,在同分布评估中,它们比 GPT-o4-mini 表现好 5.5%。我们的发现强调了社区知情标注和建模对于包容性内容审核的重要性。数据、模型和代码可在 https://github.com/asuvarna31/modelcitizens 获取。
查看 arXiv 页面查看 PDF

评论

Hritik BansalHritik Bansal
论文提交者
此评论已隐藏。