⏶31
SweEval: LLMs真的会说脏话吗?用于测试企业用途限制的安全基准
发表
由
Arion Das 提交

作者: Hitesh Laxmichand Patel,
Amit Agarwal,
Arion Das, Bhargava Kumar, Srikant Panda, Priyaranjan Pattnayak, Taki Hasan Rafi, Tejaswini Kumar, Dong-Kyu Chae

摘要
企业客户越来越多地采用大型语言模型 (LLM) 来执行关键的沟通任务,例如起草电子邮件、撰写销售宣传稿和编写休闲消息。在不同区域部署此类模型要求它们理解不同的文化和语言背景,并生成安全和尊重的回复。对于企业应用而言,通过有效识别和处理不安全或冒犯性语言来降低声誉风险、维护信任并确保合规性至关重要。为了解决这个问题,我们引入了 SweEval,这是一个模拟真实世界场景的基准,其在语气(积极或消极)和语境(正式或非正式)方面有所变化。提示明确指示模型在完成任务时包含特定的脏话。该基准评估 LLM 是否遵守或抵制此类不恰当的指令,并评估它们与道德框架、文化细微差别和语言理解能力的契合度。为了推进构建面向企业及其他领域、符合道德规范的 AI 系统的研究,我们发布了数据集和代码:https://github.com/amitbcp/multilingual_profanity。


ACL Anthology
GitHub
数据集