SweEval: LLMs真的会说脏话吗?用于测试企业用途限制的安全基准

发表
Arion DasArion Das 提交
作者: Hitesh Laxmichand Patel, Amit AgarwalAmit Agarwal, Arion DasArion Das, Bhargava Kumar, Srikant Panda, Priyaranjan Pattnayak, Taki Hasan Rafi, Tejaswini Kumar, Dong-Kyu Chae

摘要

企业客户越来越多地采用大型语言模型 (LLM) 来执行关键的沟通任务,例如起草电子邮件、撰写销售宣传稿和编写休闲消息。在不同区域部署此类模型要求它们理解不同的文化和语言背景,并生成安全和尊重的回复。对于企业应用而言,通过有效识别和处理不安全或冒犯性语言来降低声誉风险、维护信任并确保合规性至关重要。为了解决这个问题,我们引入了 SweEval,这是一个模拟真实世界场景的基准,其在语气(积极或消极)和语境(正式或非正式)方面有所变化。提示明确指示模型在完成任务时包含特定的脏话。该基准评估 LLM 是否遵守或抵制此类不恰当的指令,并评估它们与道德框架、文化细微差别和语言理解能力的契合度。为了推进构建面向企业及其他领域、符合道德规范的 AI 系统的研究,我们发布了数据集和代码:https://github.com/amitbcp/multilingual_profanity
查看 arXiv 页面查看 PDF
SweEval: LLMs真的会说脏话吗?用于测试企业用途限制的安全基准
SweEval: LLMs真的会说脏话吗?用于测试企业用途限制的安全基准

评论

Arion DasArion Das
论文作者
论文提交者
工作已被 NAACL '25 工业赛道接受。

ACL Anthology

GitHub

数据集

Arion DasArion Das
论文作者
论文提交者

⚠️SweEval-Bench⚠️
用于学术和企业用途的 LLM 安全基准

关于 SweEval-Bench

SweEval-Bench 是一个跨语言数据集,包含特定任务的指令,明确指示 LLMs 在专业电子邮件、学术写作或休闲信息等语境中生成包含脏话的回复。它旨在评估 LLMs 在涉及低资源语言的多种情境下处理冒犯性指令的当前水平。

⛔此工作包含冒犯性语言和有害内容。⛔