在数学推理中衔接监督学习与强化学习

发表
Haoxiang WangHaoxiang Wang 提交
作者: Huayu Chen, Kaiwen ZhengKaiwen Zheng, Qinsheng Zhang, Ganqu Cui, Yin CuiYin Cui, Haotian Ye, Tsung-Yi Lin, Ming-Yu Liu, Jun Zhu, Haoxiang Wang

摘要

强化学习(RL)通过二元验证器信号实现自我改进,在最近大型语言模型(LLM)数学能力显著提升中发挥了核心作用。相比之下,监督学习(SL)在这种由验证驱动的训练中很少被考虑,这主要是因为它严重依赖参考答案并且无法反思错误。在本项目中,我们挑战了自我改进是RL独有的普遍观点,并提出了一种监督学习方法——负例感知微调(NFT)——它使LLM能够反思自己的失败,并在没有外部“老师”的情况下自主改进。在在线训练中,NFT并没有丢弃自生成的负例答案,而是构建了一个隐式的负例策略来建模它们。这个隐式策略与我们目标在正例数据上优化的同一个正例LLM共享参数,从而可以直接对LLM生成的所有结果进行策略优化。我们在数学推理任务中对7B和32B模型进行了实验。结果一致表明,通过额外利用负反馈,NFT显著优于像拒绝采样微调(Rejection sampling Fine-Tuning)这样的SL基线方法,达到甚至超过了像GRPO和DAPO这样的领先RL算法的性能。此外,我们证明了即使NFT和GRPO源自完全不同的理论基础,但在严格的on-policy训练中,它们实际上是等价的。我们的实验和理论发现弥合了二元反馈学习系统中SL和RL方法之间的差距。
查看 arXiv 页面查看 PDF

评论

Haoxiang WangHaoxiang Wang
论文提交者

项目页面: https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning/

我们提出了负样本感知微调 (NFT),这是一种监督学习 (SL) 方法,用于在没有外部教师的情况下提升大型语言模型 (LLM) 的数学推理能力。

  • 作为一种 SL 方法,NFT 在 7B 模型实验中优于 GRPODAPO 等领先的 RL 算法,并在 32B 设置中与 DAPO 表现相似。

  • NFT 允许直接在负样本数据上优化 LLM,从而显著优于其他 SL 基线方法,例如拒绝采样微调 (RFT)。

  • 当训练严格执行同策略时,NFT 等同于 GRPO,尽管它们的理论基础完全不同。

我们的发现表明,自我反思改进并非强化学习算法固有的优先事项。相反,当前 SL 和 RL 方法之间的差距实际上源于它们有效利用负样本数据的能力。

main_relation_NFT.jpg

用于 LLM 微调的一系列在线算法。NFT 通过监督方式利用负面反馈,弥合了强化学习和监督学习方法之间的差距。

main_compare_NFT.jpg

已发布的 NFT-7B 与 Qwen 系列其他零样本风格数学模型的比较。

valacc_curve_NFT.jpg

7B(左)和 32B(右)训练在 6 个数学基准测试上的平均验证准确率。对于 7B 实验,我们报告了 3-4 次独立实验的平均值 ± 标准差结果。