ChineseHarm-Bench:一个中文有害内容检测基准

发表
Ningyu ZhangNingyu Zhang 提交
作者: Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu ZhangNingyu Zhang, Bryan Hooi, chenXi Chen, Shumin Deng

摘要

大型语言模型(LLM)已越来越多地应用于自动化有害内容检测任务,协助审核员识别政策违规行为并提高内容审核的整体效率和准确性。然而,现有的有害内容检测资源主要集中在英语,中文数据集仍然稀缺且范围有限。我们提出了一个全面、经过专业标注的中文内容危害检测基准,该基准涵盖六个代表性类别,并且完全基于真实世界数据构建。我们的标注过程还产生了一个知识规则库,该规则库提供了明确的专家知识,以协助 LLM 进行中文有害内容检测。此外,我们提出了一个知识增强基线,它结合了人工标注的知识规则和大型语言模型的隐式知识,使小型模型能够实现与最先进的 LLM 相媲美的性能。代码和数据可在 https://github.com/zjunlp/ChineseHarm-bench 获取。
查看 arXiv 页面查看 PDF

评论

Ningyu ZhangNingyu Zhang
论文作者
论文提交者

我们推出了 ChineseHarm-Bench,这是一个全面、专业标注的中文内容有害检测基准,涵盖了六个代表性类别,并且完全基于真实世界数据构建。