⏶299
Qwen3 技术报告
发表
由
Chujie Zheng 提交
作者:
An Yang,
Anfeng Li,
Baosong Yang,
Beichen Zhang,
Binyuan Hui, Bo Zheng,
Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv,
Chujie Zheng,
Dayiheng Liu, Fan Zhou, Fei Huang, Feng Hu, Hao Ge,
Haoran Wei, Huan Lin,
Jialong Tang, Jian Yang,
Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jing Zhou,
Jingren Zhou, Junyang Lin, Kai Dang, Keqin Bao, Kexin Yang,
Le Yu, Lianghao Deng, Mei Li,
Mingfeng Xue, Mingze Li, Pei Zhang,
Peng Wang, Qin Zhu, Rui Men,
Ruize Gao,
Shixuan Liu, Shuang Luo, Tianhao Li, Tianyi Tang, Wenbiao Yin, Xingzhang Ren,
Xinyu Wang, Xinyu Zhang, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yinger Zhang, Yu Wan,
Yuqiong Liu, Zekun Wang,
Zeyu Cui, Zhenru Zhang, Zhipeng Zhou,
Zihan Qiu
摘要
AI 生成总结
通义千问3(Qwen3)是一个统一的大语言模型系列,它集成了思维和非思维模式,减少了计算资源,并在各种任务和语言上实现了最先进的性能。在这项工作中,我们推出了 Qwen3,这是 Qwen 模型系列的最新版本。
Qwen3 系列包含一系列大型语言模型(LLMs),旨在提升性能、效率和多语言能力。
Qwen3 系列模型包括稠密模型和混合专家(MoE)架构模型,参数规模从 0.6 亿到 2350 亿不等。
Qwen3 的一个关键创新是将思维模式(用于复杂、多步骤推理)和非思维模式(用于快速、上下文驱动的响应)整合到统一的框架中。
这消除了在不同模型(例如针对聊天优化的模型 GPT-4o 和专用推理模型 QwQ-32B)之间切换的需要,并能够根据用户查询或聊天模板动态切换模式。
同时,Qwen3 引入了思维预算机制,允许用户在推理过程中自适应地分配计算资源,从而根据任务复杂性平衡延迟和性能。
此外,通过利用旗舰模型的知识,我们显著降低了构建小型模型所需的计算资源,同时确保了其高度有竞争力的性能。
实证评估表明,Qwen3 在包括代码生成、数学推理、智能体任务等在内的各种基准测试中取得了最先进(SOTA)的结果,与更大的 MoE 模型和专有模型相比具有竞争力。
相较于其前代 Qwen2.5,Qwen3 将多语言支持从 29 种语言和方言扩展到 119 种,通过改进的跨语言理解和生成能力增强了全球可及性。
为了促进可重现性和社区驱动的研究与开发,所有 Qwen3 模型均在 Apache 2.0 许可下公开可用。
评论
感谢这份出色的技术报告!
我有一个关于您在推理生成方面的经验的问题:您是否遇到过过度或无休止的重复问题,尤其是在生成非英语或非中文的语言推理时?在我看来,我尝试将 Qwen3-32B 的推理轨迹提炼到 Qwen3-8B 的目标语言中,并观察到较小的模型经常产生重复的推理种子,而原始的 32B/8B 模型很少出现。
您在 SFT/GRPO/提炼到较小模型阶段是否观察到类似行为?如果是,您是如何解决的?
HuggingFace 模型卡建议使用存在惩罚来减少重复,但这可能会对整体性能产生负面影响。我非常想了解您是否发现了更有效地缓解此问题的替代方法或调整策略。
再次感谢您分享您的工作!
民事责任综合摘要 - 按原始结构
主目录
讲座 1:引言
1. 法律的定义及其划分
2. 义务的来源
3. 责任的类型
讲座 2:责任的特征
1. 民事责任与刑事责任的比较
2. 责任竞合时的法律适用
3. 诉讼时效
讲座 3:侵权责任与合同责任
1. 主要区别
2. 损害类型与赔偿
3. 实际应用
参考文献
- 原文:“بثينة المسؤولية المدنية.docx”
- 也门民法(2002年第14号法)
- 也门民事及商事诉讼法(1992年第28号法)
- 伊斯兰教法下民事责任的一般原则 - M. Al-Zuhayli 博士
- 也门最高法院发布的判例汇编

Qwen3 技术报告