Qwen3Guard 技术报告

发表
taesiritaesiri 提交
作者: Haiquan ZhaoHaiquan Zhao, Chenhan Yuan, Fei Huang, Xiaomeng Hu, Yichang Zhang, An Yang, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin, Baosong Yang, Chen Cheng, Jialong Tang, Jiandong Jiang, Jianwei Zhang, Jijie Xu, Ming Yan, Minmin Sun, Pei Zhang, Pengjun Xie, Qiaoyu Tang, Qin Zhu, Rong Zhang, Shibin Wu, Shuo Zhang, Tao He, Tianyi Tang, Tingyu Xia, Wei Liao, Weizhou Shen, Wenbiao Yin, Wenmeng Zhou, Wenyuan Yu, Xiaobin Wang, Xiaodong Deng, Xiaodong Xu, Xinyu Zhang, Yang Liu, Yeqiu Li, Yi Zhang, Yong Jiang, Yu Wan, Yuxin Zhou

摘要

AI 生成总结
Qwen3Guard 引入了多语言安全防护栏模型,具有细粒度的三类判断和针对大型语言模型的实时令牌级安全监控。
随着大型语言模型(LLM)变得越来越强大和广泛使用,确保其输出的安全性变得越来越重要。尽管现有的安全护栏模型在静态评估场景中有用,但在实际应用中存在两个主要限制:(1)它们通常只输出二元的“安全/不安全”标签,这些标签可能因各种安全策略而解释不一致,因此无法适应不同领域不断变化的安全容忍度;(2)它们需要在执行安全检查之前获得完整的模型输出来,这使得它们与流式 LLM 推理根本不兼容,从而阻止在生成过程中及时干预,并增加了暴露于有害部分输出的风险。为了解决这些挑战,我们提出了 Qwen3Guard,一系列多语言安全护栏模型,具有两个专用变体:生成式 Qwen3Guard,它将安全分类视为一项指令遵循任务,以实现细粒度的三类判断(安全、有争议、不安全);以及流式 Qwen3Guard,它引入了一个 token 级别的分类头,用于在增量文本生成过程中进行实时安全监控。这两个变体都有三种大小(0.6B、4B 和 8B 参数),并支持多达 119 种语言和方言,为全球 LLM 部署提供全面、可扩展且低延迟的安全审核。Qwen3Guard 在英语、中文和多语言基准上进行了评估,在提示和响应安全分类方面均取得了最先进的性能。所有模型均在 Apache 2.0 许可下发布,供公众使用。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

随着大型语言模型 (LLM) 能力的不断增强并得到广泛应用,确保其输出的安全性变得越来越重要。现有的安全护栏模型虽然在静态评估环境中很有用,但在实际应用中面临两大限制:(1) 它们通常只输出二进制的“安全/不安全”标签,这可能在不同安全策略之间产生不一致的解释,使其无法适应不同领域的变化的安全容忍度;(2) 它们需要完整模型输出来执行安全检查,这使得它们与流式 LLM 推理在根本上不兼容,从而阻止在生成过程中及时干预并增加暴露于有害部分输出的风险。为了解决这些挑战,我们提出了 Qwen3Guard,一系列多语言安全护栏模型,有两种专门的变体:生成式 Qwen3Guard,它将安全分类视为一项指令遵循任务,以实现细粒度的三类判断(安全、有争议、不安全);以及流式 Qwen3Guard,它引入了一个令牌级分类头,用于在增量文本生成过程中进行实时安全监控。这两种变体均提供三种尺寸(0.6B、4B 和 8B 参数),并支持多达 119 种语言和方言,为全球 LLM 部署提供全面、可扩展且低延迟的安全审核。在英语、中文和多语言基准上进行评估,Qwen3Guard 在提示和响应安全分类方面均取得了最先进的性能。所有模型均根据 Apache 2.0 许可证发布,供公众使用。