Qwen3 技术报告

发表
Chujie ZhengChujie Zheng 提交
作者: An YangAn Yang, Anfeng LiAnfeng Li, Baosong YangBaosong Yang, Beichen ZhangBeichen Zhang, Binyuan HuiBinyuan Hui, Bo Zheng, bowenBowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, Chujie ZhengChujie Zheng, Dayiheng LiuDayiheng Liu, Fan Zhou, Fei Huang, Feng Hu, Hao Ge, Haoran WeiHaoran Wei, Huan Lin, Jialong TangJialong Tang, Jian Yang, Jianhong TuJianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jing Zhou, ZhouJingren Zhou, Junyang Lin, Kai Dang, Keqin Bao, Kexin Yang, Le YuLe Yu, Lianghao Deng, Mei Li, Mingfeng XueMingfeng Xue, Mingze Li, Pei Zhang, Peng WangPeng Wang, Qin Zhu, Rui Men, Ruize GaoRuize Gao, Shixuan LiuShixuan Liu, Shuang Luo, Tianhao Li, Tianyi Tang, Wenbiao Yin, Xingzhang Ren, Wang XinyuXinyu Wang, Xinyu Zhang, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yinger Zhang, Yu Wan, Yuqiong LiuYuqiong Liu, Zekun Wang, Zeyu CuiZeyu Cui, Zhenru Zhang, Zhipeng Zhou, Zihan QiuZihan Qiu

摘要

AI 生成总结
通义千问3(Qwen3)是一个统一的大语言模型系列,它集成了思维和非思维模式,减少了计算资源,并在各种任务和语言上实现了最先进的性能。
在这项工作中,我们推出了 Qwen3,这是 Qwen 模型系列的最新版本。 Qwen3 系列包含一系列大型语言模型(LLMs),旨在提升性能、效率和多语言能力。 Qwen3 系列模型包括稠密模型和混合专家(MoE)架构模型,参数规模从 0.6 亿到 2350 亿不等。 Qwen3 的一个关键创新是将思维模式(用于复杂、多步骤推理)和非思维模式(用于快速、上下文驱动的响应)整合到统一的框架中。 这消除了在不同模型(例如针对聊天优化的模型 GPT-4o 和专用推理模型 QwQ-32B)之间切换的需要,并能够根据用户查询或聊天模板动态切换模式。 同时,Qwen3 引入了思维预算机制,允许用户在推理过程中自适应地分配计算资源,从而根据任务复杂性平衡延迟和性能。 此外,通过利用旗舰模型的知识,我们显著降低了构建小型模型所需的计算资源,同时确保了其高度有竞争力的性能。 实证评估表明,Qwen3 在包括代码生成、数学推理、智能体任务等在内的各种基准测试中取得了最先进(SOTA)的结果,与更大的 MoE 模型和专有模型相比具有竞争力。 相较于其前代 Qwen2.5,Qwen3 将多语言支持从 29 种语言和方言扩展到 119 种,通过改进的跨语言理解和生成能力增强了全球可及性。 为了促进可重现性和社区驱动的研究与开发,所有 Qwen3 模型均在 Apache 2.0 许可下公开可用。
查看 arXiv 页面查看 PDF

评论

Chujie ZhengChujie Zheng
论文作者
论文提交者

Qwen3 技术报告

YJYJ

适合随时随地学习的音频概述: https://youtu.be/8apXJbju_Ww

ChatGPT Image May 19, 2025, 09_39_30 AM.png

Nguyen Phuc LocNguyen Phuc Loc
此评论已隐藏。
Xin myXin my
此评论已隐藏。
Dmitrii StoianovDmitrii Stoianov

感谢这份出色的技术报告!

我有一个关于您在推理生成方面的经验的问题:您是否遇到过过度或无休止的重复问题,尤其是在生成非英语或非中文的语言推理时?在我看来,我尝试将 Qwen3-32B 的推理轨迹提炼到 Qwen3-8B 的目标语言中,并观察到较小的模型经常产生重复的推理种子,而原始的 32B/8B 模型很少出现。

您在 SFT/GRPO/提炼到较小模型阶段是否观察到类似行为?如果是,您是如何解决的?

HuggingFace 模型卡建议使用存在惩罚来减少重复,但这可能会对整体性能产生负面影响。我非常想了解您是否发现了更有效地缓解此问题的替代方法或调整策略。

再次感谢您分享您的工作!

DD
此评论已隐藏。
Mohamed naifMohamed naif
民事责任综合摘要 - 按原始结构
主目录
主要主题子主题参考页码讲座 1:引言 法律的定义及其划分 1-2 义务的来源 2-3 责任的类型 3-4 公诉程序 4-6 讲座 2:责任的特征 民事责任与刑事责任的比较 7-8 法律的适用 9-10 诉讼时效 10-11 讲座 3:侵权责任与合同责任 主要区别 12-13 损害的类型与赔偿 13-15 实际应用 15-16

讲座 1:引言
1. 法律的定义及其划分
概念定义/特征重要细节法律 一般性、抽象性、强制性规则 - 普遍性:适用于所有人
- 抽象性:不可单独修改
- 强制性:违者受罚 法律的划分 - 公法 规范国家与个人之间的关系 - 国内法:宪法、刑法、行政法、财政法
- 国际法:国际公法 - 私法 规范平等主体之间的关系 民法、商法、诉讼法、劳动法、家事法、海商法、航空法、国际私法
2. 义务的来源
来源定义应用示例合同 双方意思表示一致,产生法律效力 买卖合同或租赁合同 单方意思表示 单方有约束力的法律行为 遗嘱 - 悬赏广告 无因管理/不当得利 未经授权的获益 在无依据的情况下支付款项 侵权行为 造成他人损害的过错行为 损坏他人财物 法律 立法文本 纳税义务
3. 责任的类型
类型来源重要细节刑事责任 犯罪 由公诉机关管辖 民事责任 民事过错 - 合同责任:因违约引起
- 侵权责任:因侵权行为引起 道德责任 道德准则 不可诉讼

讲座 2:责任的特征
1. 民事责任与刑事责任的比较
标准民事责任刑事责任文本示例基础 要求赔偿 要求惩罚 物质损害赔偿 vs 监禁刑罚 利益 私人(个人) 公共(社会) 个人赔偿 vs 社会保护 目标 弥补损害 保护社会 修复损害 vs 阻止犯罪 放弃 可行 不可行 民事调解 vs 刑事诉讼不受时效限制 诉讼时效 3年 不受时效限制 3年后丧失赔偿请求权
2. 责任竞合时的法律适用
方面规则应用示例管辖权 民事权利附属于刑事权利 在同一案件中,既追究加害人的刑事责任,又要求其承担民事赔偿 中止 刑事诉讼中止则民事诉讼也中止 被告人被宣告无罪时,民事赔偿诉讼中止 判决效力 刑事判决对民事法院有约束力 以刑事判决的无罪理由,在民事诉讼中主张免责 诉讼时效 民事诉讼的时效仅随刑事诉讼的时效而中止 刑事诉讼时效届满后,民事权利仍然存在
3. 诉讼时效
诉讼类型期限起始条件文本示例 损害赔偿诉讼 3年 知晓损害之日 事故后索赔 损害赔偿诉讼(隐蔽损害) 15年 损害发生之日 邻居拆除后房屋出现裂缝 财务款项 1年 到期日 支付酒店账单 劳动诉讼 1年 服务终止 索要拖欠工资

讲座 3:侵权责任与合同责任
1. 主要区别
标准合同责任侵权责任重要细节来源 合同 侵权行为 合同与义务的关联 赔偿范围 可预见的直接损害 所有直接损害 合同责任的范围较窄 诉讼时效 25年(动产)- 30年(不动产) 3年 根本性的丧失诉权期限差异 行为能力 18岁以上 辨别能力年龄(10岁以上) 当事人的不同要求 示例 延迟交付水泵 损坏他人财物 两者来源的清晰区分
2. 损害类型与赔偿
损害类型定义可否赔偿应用示例直接可预见损害 可预见的自然损害 ✓ 两种情况均可 运输途中货物损坏 直接不可预见损害 直接但非典型的损害 ✗ 合同责任 - ✓ 侵权责任 旅行箱丢失黄金 间接损害 与过错无直接关联的损害 ✗ 邻居因延迟交付水泵而造成的损失
3. 实际应用
情况事实法律解决方案合同责任转为侵权责任 放弃土地合同后,未能履行替代承诺 驳回诉讼,因合同关系已中断 责任竞合 延迟交付汽车,同时要求银行偿还贷款 合同责任(延迟)+ 侵权责任(偿还贷款) 和解作为执行依据 达成赔偿协议后未能支付 将和解转为执行令 不动产担保 约定25年内不受侵扰的担保 出现问题时,买家可退还卖家

参考文献
  1. 原文:“بثينة المسؤولية المدنية.docx”
  2. 也门民法(2002年第14号法)
  3. 也门民事及商事诉讼法(1992年第28号法)
  4. 伊斯兰教法下民事责任的一般原则 - M. Al-Zuhayli 博士
  5. 也门最高法院发布的判例汇编
Hafedh HichriHafedh Hichri

你好 @mohmmaddd,请考虑删除上面的评论,因为它与论文或人工智能领域完全无关。
感谢你的考虑!

Grant SingletonGrant Singleton

arXiv 解释了这篇论文的细分 👉 https://arxivexplained.com/papers/qwen3-technical-report