理解Gen Alpha数字语言:用于内容审核的LLM安全系统评估

发表
Virendra MehtaVirendra Mehta 提交
作者: Manisha MehtaManisha Mehta, Fausto Giunchiglia

摘要

本研究提供了一个独特的评估,考察了 AI 系统如何解释 Alpha 世代(Gen Alpha,出生于 2010-2024 年)的数字语言。作为第一批与 AI 一同成长的群体,Alpha 世代由于沉浸式数字参与以及他们不断演变的交流方式与现有安全工具之间的差距日益扩大,面临着新的在线风险。他们受游戏、梗图和 AI 驱动趋势影响形成的独特语言,常常对人类审核员和自动化系统隐藏有害互动。我们评估了四种领先的 AI 模型(GPT-4、Claude、Gemini 和 Llama 3)在 Alpha 世代语境中检测隐藏骚扰和操纵的能力。研究使用了一个包含 100 个来自游戏平台、社交媒体和视频内容的近期表达方式数据集,揭示了关键的理解失败,对在线安全产生直接影响。这项工作的贡献包括:(1)首个捕捉 Alpha 世代表达方式的数据集;(2)一个改进 AI 审核系统以保护青少年的框架;(3)一个多视角评估,包括 AI 系统、人类审核员和家长,并有 Alpha 世代共同研究者的直接投入;以及(4)对语言差异如何增加青少年脆弱性的分析。研究结果强调迫切需要重新设计适应青少年交流的安全系统,特别是考虑到 Alpha 世代在成年人无法理解他们的数字世界时不愿意寻求帮助。这项研究结合了 Alpha 世代研究者的洞察与系统的学术分析,以解决关键的数字安全挑战。
查看 arXiv 页面查看 PDF

评论

Virendra MehtaVirendra Mehta
论文提交者

主要作者是一位13岁的初中生,她分析了大型语言模型 (LLMs) 对 Alpha 世代语言理解的能力以及对人工智能内容审核的影响。将于2025年6月在ACM FAccT上展示。