孔子三号-数学:一个用于中国K-12数学学习的轻量级高性能推理大语言模型

发表
nomadlxnomadlx 提交
作者: nomadlxLixin Wu, Na Cai, Qiao Cheng, Jiachen Wang, Yitao Duan

摘要

我们推出Confucius3-Math,这是一个拥有140亿参数的开源大语言模型,它(1) 能够在单个消费级GPU上高效运行;(2) 在一系列数学推理任务上取得了SOTA(最先进)性能,超越了许多规模更大的模型。尤其值得一提的是,作为我们利用AI促进教育和知识传播使命的一部分,Confucius3-Math专门致力于中国K-12(中小学)学生和教育工作者的数学学习。Confucius3-Math通过大规模强化学习(RL)进行后期训练构建,与国家课程对齐,并能以较低的成本高效解决主流的中国K-12数学问题。在本报告中,我们分享了我们的开发方法、遇到的挑战以及为克服这些挑战而开发的技术。我们尤其介绍了三项技术创新:目标熵正则化(Targeted Entropy Regularization)、近期样本恢复(Recent Sample Recovery)和策略特定难度加权(Policy-Specific Hardness Weighting)。这些创新包括一种新的熵正则化方法、一种新颖的数据调度策略以及一种改进的组相对优势估计器。总的来说,它们显著稳定了强化学习训练,提高了数据效率,并提升了性能。我们的工作证明了在特定领域以低成本构建强大推理模型的可行性。我们已在https://github.com/netease-youdao/Confucius3-Math上开源了我们的模型和代码。
查看 arXiv 页面查看 PDF

评论

nomadlxnomadlx
论文作者
论文提交者

本文的三个关键点是:

  1. 仅用14B参数,就在数学推理方面达到了SOTA(State-of-the-Art,最先进)性能,并且模型完全开源。

image.png

  1. 它提出了 Recent Sample Recovery 技术,这是一个非常简单的修改,解决了DAPO中的数据浪费问题,同时带来了质量提升。

  2. 它引入了 Policy-Specific Hardness Weighting,这是一种将课程学习更自然地融入训练的方法。