⏶171

Qwen3 技术报告

05月14日发表

05月19日由 Chujie Zheng 提交

作者: An Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, bowen Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, Chujie Zheng, Dayiheng Liu, Fan Zhou, Fei Huang, Feng Hu, Hao Ge, Haoran Wei, Huan Lin, Jialong Tang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jing Zhou, Zhou Jingren Zhou, Junyang Lin, Kai Dang, Keqin Bao, Kexin Yang, Le Yu, Lianghao Deng, Mei Li, Mingfeng Xue, Mingze Li, Pei Zhang, Peng Wang, Qin Zhu, Rui Men, Ruize Gao, Shixuan Liu, Shuang Luo, Tianhao Li, Tianyi Tang, Wenbiao Yin, Xingzhang Ren, Xinyu Wang, Xinyu Zhang, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yinger Zhang, Yu Wan, Yuqiong Liu, Zekun Wang, Zeyu Cui, Zhenru Zhang, Zhipeng Zhou, Zihan Qiu

摘要

在这项工作中，我们推出了 Qwen3，这是 Qwen 模型系列的最新版本。 Qwen3 系列包含一系列大型语言模型（LLMs），旨在提升性能、效率和多语言能力。 Qwen3 系列模型包括稠密模型和混合专家（MoE）架构模型，参数规模从 0.6 亿到 2350 亿不等。 Qwen3 的一个关键创新是将思维模式（用于复杂、多步骤推理）和非思维模式（用于快速、上下文驱动的响应）整合到统一的框架中。这消除了在不同模型（例如针对聊天优化的模型 GPT-4o 和专用推理模型 QwQ-32B）之间切换的需要，并能够根据用户查询或聊天模板动态切换模式。同时，Qwen3 引入了思维预算机制，允许用户在推理过程中自适应地分配计算资源，从而根据任务复杂性平衡延迟和性能。此外，通过利用旗舰模型的知识，我们显著降低了构建小型模型所需的计算资源，同时确保了其高度有竞争力的性能。实证评估表明，Qwen3 在包括代码生成、数学推理、智能体任务等在内的各种基准测试中取得了最先进（SOTA）的结果，与更大的 MoE 模型和专有模型相比具有竞争力。相较于其前代 Qwen2.5，Qwen3 将多语言支持从 29 种语言和方言扩展到 119 种，通过改进的跨语言理解和生成能力增强了全球可及性。为了促进可重现性和社区驱动的研究与开发，所有 Qwen3 模型均在 Apache 2.0 许可下公开可用。

查看 arXiv 页面查看 PDF

Chujie Zheng

论文作者

论文提交者

Qwen3 技术报告

适合随时随地学习的音频概述： https://youtu.be/8apXJbju_Ww

ChatGPT Image May 19, 2025, 09_39_30 AM.png

Qwen3 技术报告

摘要

评论