⏶163
Qwen2 技术报告
07月15日发表
04月12日由
Binyuan Hui 提交

作者:
An Yang,
Baosong Yang,
Binyuan Hui,
Bo Zheng, Bowen Yu,
Chang Zhou,
Chengpeng Li, Chengyuan Li,
Dayiheng Liu,
Fei Huang,
Guanting Dong,
Haoran Wei, Huan Lin,
Jialong Tang,
Jialin Wang,
Jian Yang,
Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu,
Jingren Zhou,
Jinze Bai, Jinzheng He,
Junyang Lin, Kai Dang,
Keming Lu, Keqin Chen,
Kexin Yang, Mei Li,
Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang,
Ru Peng,
Rui Men,
Ruize Gao,
Runji Lin,
Shijie Wang,
Shuai Bai,
Sinan Tan, Tianhang Zhu,
Tianhao Li, Tianyu Liu,
Wenbin Ge, Xiaodong Deng,
Xiaohuan Zhou,
Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan,
Yunfei Chu,
Zeyu Cui,
Zhenru Zhang, Zhihao Fan







摘要
本报告介绍了 Qwen2 系列,这是我们大型语言模型和大型多模态模型的最新成员。我们发布了一套全面的基础和指令微调语言模型,参数范围从 0.5 到 720 亿,包括密集模型和混合专家模型。Qwen2 超过了大多数先前的开放权重模型,包括其前身 Qwen1.5,并且在语言理解、生成、多语言能力、编码、数学和推理等各种基准测试中,相对于专有模型表现出有竞争力的性能。旗舰模型 Qwen2-72B 展示了卓越的性能:作为基础语言模型,在 MMLU 上为 84.2,在 GPQA 上为 37.9,在 HumanEval 上为 64.6,在 GSM8K 上为 89.5,在 BBH 上为 82.4。指令微调变体 Qwen2-72B-Instruct 在 MT-Bench 上达到 9.1,在 Arena-Hard 上达到 48.1,在 LiveCodeBench 上达到 35.7。此外,Qwen2 展示了强大的多语言能力,精通约 30 种语言,包括英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,突显了其多功能性和全球影响力。为了促进社区创新和可访问性,我们已在 Hugging Face1 和 ModelScope2 上公开提供了 Qwen2 模型权重,并在 GitHub3 上提供了包括示例代码在内的补充材料。这些平台还包括量化、微调和部署资源,为广泛的应用和研究工作提供便利。
Qwen2 技术报告