推理还是记忆化?数据污染导致的强化学习结果不可靠

发表
Songyang ZhangSongyang Zhang 提交
作者: Mingqi Wu, Zhihao Zhang, Qiaole Dong, Zhiheng Xi, Jun Zhao, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Yanwei Fu, Qin Liu, Songyang ZhangSongyang Zhang, Qi Zhang

摘要

大型语言模型(LLM)的推理能力一直是研究的长期焦点。近期的工作利用强化学习(RL)进一步增强了这些能力,许多新方法声称在极少或没有外部监督的情况下取得了显著改进。令人惊讶的是,一些研究甚至表明,随机或不正确的奖励信号也能提升推理性能。然而,这些突破大多是在 Qwen2.5 模型系列上报告的,并在 MATH-500、AMC 和 AIME 等知名基准上进行评估,却未能在 Llama 等其他模型上取得类似增益,这一点值得进一步研究。我们的分析表明,尽管 Qwen2.5 取得了强大的数学推理性能,但其在大规模网络语料库上的预训练使其在流行的基准测试中容易受到数据污染的影响。因此,基于这些基准得出的结果可能并不可靠。为解决此问题,我们引入了一个能生成任意长度和难度的完全合成算术问题的生成器,由此产生一个我们称之为 RandomCalculation 的纯净数据集。利用这些无泄露的数据集,我们证明了只有准确的奖励信号才能持续提升性能,而嘈杂或不正确的信号则不能。我们倡导在未受污染的基准上,并跨越不同的模型系列来评估强化学习方法,以确保得出可靠的结论。
查看 arXiv 页面查看 PDF

评论

Songyang ZhangSongyang Zhang
论文作者
论文提交者

报告

Guanning ZengGuanning Zeng

非常感谢这项出色的工作!

你们最近计划上传 RandomCalculation 基准测试吗?(这样我们就可以在更多模型上进行评估了 哈哈)🙂