RabakBench:扩展人工标注以构建面向低资源语言的本地化多语言安全基准

发表
Gabriel CGabriel C 提交
作者: Gabriel CGabriel Chua, Leanne Tan, Ziyu Ge, Roy Ka-Wei Lee

摘要

大型语言模型(LLM)及其安全分类器由于训练数据和评估基准有限,在低资源语言上的表现往往不佳。本文引入了 RabakBench,一个新的多语言安全基准,专门针对新加坡独特的语言环境进行了本地化,涵盖了新加坡式英语(Singlish)、中文、马来语和泰米尔语。RabakBench 通过可扩展的三阶段流程构建:(i) 生成——通过结合 LLM 驱动的红队攻击,增强真实新加坡式英语网络内容,从而生成对抗性示例;(ii) 标注——使用与人类判断对齐的、多数投票的 LLM 标注器进行半自动化多标签安全标注;以及 (iii) 翻译——进行高保真翻译,保留跨语言的语言细微差别和毒性。最终数据集包含超过5,000个安全标注示例,涵盖四种语言和六个带有严重程度的细粒度安全类别。对11种流行的开源和闭源护栏分类器的评估显示出显著的性能下降。RabakBench 不仅能够在东南亚多语言环境中实现稳健的安全评估,还为在低资源环境中构建本地化安全数据集提供了可复现的框架。该基准数据集,包括经过人工验证的翻译和评估代码,均已公开发布。
查看 arXiv 页面查看 PDF

评论

Gabriel CGabriel C
论文作者
论文提交者

🌏 每个国家都有其独特的语言印记——方言和语言的融合塑造了日常生活。在全球人工智能时代,捕捉这些本地细微差别并非可有可无;对于负责任的部署而言,这是至关重要的。

为解决此问题,新加坡政府科技局(GovTech)的 AI 实践部门与新加坡科技设计大学(SUTD)的社会 AI 工作室联手打造了 RabakBench。新加坡丰富的语言环境——包括新式英语/英语、中文、马来语、泰米尔语——为大型语言模型(LLM)及其安全防护墙提供了完美的压力测试。

我们认为这是一个有意义且富有挑战性的基准 🏋🏼:对十一个流行的开源和闭源安全防护墙进行评估显示出显著的不一致性。例如,像 OpenAI Moderation 或 LlamaGuard 这样流行的防护墙选项并非总是最佳选择。

为低资源语言构建高质量的多语言安全基准耗时费力且难以扩展。为克服这一挑战,我们通过一个三阶段过程构建了 RabakBench,该过程结合了“人在回路”标注、LLM 辅助的红队对抗测试 🔦 和多语言翻译 💬。我们分享此成果,旨在展示如何通过 LLM 辅助工作流和协作研讨会来扩展人工标注,即使在数据稀缺的环境中也能实现严格的、以文化为基础的基准测试。

我们希望 RabakBench 能帮助开发者、研究人员和政策制定者。请告诉我们您的想法!

1_yZziqIfcCs7o6s5spqbXYg.webp