Qwen2 技术报告

07月15日发表
04月12日由 Binyuan HuiBinyuan Hui 提交
作者: An YangAn Yang, Baosong YangBaosong Yang, Binyuan HuiBinyuan Hui, Bo ZhengBo Zheng, Bowen Yu, chang zhouChang Zhou, ChengpengLiChengpeng Li, Chengyuan Li, Dayiheng LiuDayiheng Liu, Fei HuangFei Huang, KABIGuanting Dong, Haoran WeiHaoran Wei, Huan Lin, Jialong TangJialong Tang, jialinwangJialin Wang, Yang JianJian Yang, Jianhong TuJianhong Tu, Jianwei Zhang, Jianxin Ma, Jin Xu, ZhouJingren Zhou, Jinze BaiJinze Bai, Jinzheng He, Junyang LinJunyang Lin, Kai Dang, Keming LuKeming Lu, Keqin Chen, Kexin YangKexin Yang, Mei Li, Mingfeng XueMingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru PengRu Peng, IurnemRui Men, Ruize GaoRuize Gao, Runji LinRunji Lin, Shijie WangShijie Wang, shuai baiShuai Bai, Sinan TanSinan Tan, Tianhang Zhu, litianhaoTianhao Li, Tianyu Liu, Wenbin GeWenbin Ge, Xiaodong Deng, Xiaohuan ZhouXiaohuan Zhou, xzhrenXingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei ChuYunfei Chu, czy yenteZeyu Cui, Zhenru ZhangZhenru Zhang, Zhihao Fan

摘要

本报告介绍了 Qwen2 系列,这是我们大型语言模型和大型多模态模型的最新成员。我们发布了一套全面的基础和指令微调语言模型,参数范围从 0.5 到 720 亿,包括密集模型和混合专家模型。Qwen2 超过了大多数先前的开放权重模型,包括其前身 Qwen1.5,并且在语言理解、生成、多语言能力、编码、数学和推理等各种基准测试中,相对于专有模型表现出有竞争力的性能。旗舰模型 Qwen2-72B 展示了卓越的性能:作为基础语言模型,在 MMLU 上为 84.2,在 GPQA 上为 37.9,在 HumanEval 上为 64.6,在 GSM8K 上为 89.5,在 BBH 上为 82.4。指令微调变体 Qwen2-72B-Instruct 在 MT-Bench 上达到 9.1,在 Arena-Hard 上达到 48.1,在 LiveCodeBench 上达到 35.7。此外,Qwen2 展示了强大的多语言能力,精通约 30 种语言,包括英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,突显了其多功能性和全球影响力。为了促进社区创新和可访问性,我们已在 Hugging Face1 和 ModelScope2 上公开提供了 Qwen2 模型权重,并在 GitHub3 上提供了包括示例代码在内的补充材料。这些平台还包括量化、微调和部署资源,为广泛的应用和研究工作提供便利。

评论

Binyuan HuiBinyuan Hui
论文作者
论文提交者

Qwen2 技术报告

Binyuan HuiBinyuan Hui
论文作者
论文提交者

https://huggingface.co/spaces/Qwen/Qwen2-72B-Instruct