⏶31

SweEval: LLMs真的会说脏话吗？用于测试企业用途限制的安全基准

05月22日发表

05月28日由 Arion Das 提交

作者: Hitesh Laxmichand Patel, Amit Agarwal, Arion Das, Bhargava Kumar, Srikant Panda, Priyaranjan Pattnayak, Taki Hasan Rafi, Tejaswini Kumar, Dong-Kyu Chae

摘要

企业客户越来越多地采用大型语言模型 (LLM) 来执行关键的沟通任务，例如起草电子邮件、撰写销售宣传稿和编写休闲消息。在不同区域部署此类模型要求它们理解不同的文化和语言背景，并生成安全和尊重的回复。对于企业应用而言，通过有效识别和处理不安全或冒犯性语言来降低声誉风险、维护信任并确保合规性至关重要。为了解决这个问题，我们引入了 SweEval，这是一个模拟真实世界场景的基准，其在语气（积极或消极）和语境（正式或非正式）方面有所变化。提示明确指示模型在完成任务时包含特定的脏话。该基准评估 LLM 是否遵守或抵制此类不恰当的指令，并评估它们与道德框架、文化细微差别和语言理解能力的契合度。为了推进构建面向企业及其他领域、符合道德规范的 AI 系统的研究，我们发布了数据集和代码：https://github.com/amitbcp/multilingual_profanity。

查看 arXiv 页面查看 PDF