强化预训练

发表
Li DongLi Dong 提交
作者: Qingxiu Dong, Li DongLi Dong, Yao TangYao Tang, ytzTianzhu Ye, Yutao Sun, Zhifang Sui, FWFuru Wei

摘要

In this work, we introduce Reinforcement Pre-Training (RPT) as a new scaling paradigm for large language models and reinforcement learning (RL). Specifically, we reframe next-token prediction as a reasoning task trained using RL, where it receives verifiable rewards for correctly predicting the next token for a given context. RPT offers a scalable method to leverage vast amounts of text data for general-purpose RL, rather than relying on domain-specific annotated answers. By incentivizing the capability of next-token reasoning, RPT significantly improves the language modeling accuracy of predicting the next tokens. Moreover, RPT provides a strong pre-trained foundation for further reinforcement fine-tuning. The scaling curves show that increased training compute consistently improves the next-token prediction accuracy. The results position RPT as an effective and promising scaling paradigm to advance language model pre-training.
查看 arXiv 页面查看 PDF
强化预训练

评论

Li DongLi Dong
论文作者
论文提交者

在这项工作中,我们引入了强化预训练(Reinforcement Pre-Training, RPT),作为大型语言模型和强化学习(RL)的一种新的扩展范式。具体来说,我们将下一词元预测重构为一个使用RL训练的推理任务,它通过正确预测给定上下文的下一词元来获得可验证的奖励。RPT提供了一种可扩展的方法,可以利用大量的文本数据进行通用RL,而不是依赖领域特定的标注答案。通过激励下一词元推理的能力,RPT显著提高了预测下一词元的语言模型准确性。此外,RPT为进一步的强化微调提供了坚实的基础。扩展曲线表明,增加训练计算量能持续提高下一词元预测的准确性。这些结果使RPT成为推进语言模型预训练的有效且有前景的扩展范式。

Yinxu PanYinxu Pan

在其他数学推理基准(如aime24、aime25、math500等)上的表现如何?

ytzytz
论文作者

谢谢提问。根据表2“RL前”列,RPT在强化微调前在数学问题上表现出更强的性能。

我们也在您提到的数学数据集上取得了积极的成果。我们正在继续扩大规模并整理我们的工作,在接下来的时间里,我们将发布更大规模实验的评估结果,其中将包括您感兴趣的数学数据集。

NehemiahNehemiah

我从没想过强化学习可以用于预训练

DamolaDamola

看起来很酷。你可以说这是“NTR”[下一词元推理]。

XiangyuXiangyu

🤣

brucewan666brucewan666

NTR 太棒了!

Junlin ZhouJunlin Zhou

天哪 🤣

高喆高喆

优秀的论文。但我对训练成本有所疑问。原始GPT中的因果掩码可以提高预训练的效率。但在这项工作中,我发现很难在RPT中引入因果掩码,这难道不会增加RPT的成本吗?

Tony Congqian WangTony Congqian Wang

我也想知道。在我的理解中,这是一种预训练,因为它是在一个精选数据集上进行的自监督训练。但它在计算效率方面与标准的预训练不同。

Rasmus LindahlRasmus Lindahl

如果递归地应用 RPT——让模型在其自身的推理链中对每个 token 进行推理——会发生什么?对推理过程本身进行元推理会带来更好的性能,还是计算开销会超过其收益?:)

NehemiahNehemiah

我看到论文中提到,RPT 是从一个推理模型初始化的,并且在“未来工作”部分提到,将研究从标准的基础 LLM 初始化 RPT 的可能性。我想知道,如果 RPT 是从基础 LLM 而非推理模型初始化,其训练和思维过程会有何种差异。

ytzytz
论文作者

我们正在努力。敬请关注!

Tony Congqian WangTony Congqian Wang

如果我没弄错的话,你的方法不允许像标准预训练那样进行大规模并行扩展,因此你不应该只局限于下一个token预测。

除了下一个token预测,你有没有考虑过其他受预训练启发的强化学习目标?比如BERT中的掩码token预测和下一句预测。

yehyayehya

你能提供你的微调代码吗?我感兴趣的是将同样的方法应用到推理模型MiMo-7B上,使用相同的代理模型进行熵计算,但首先预处理相同的数据集,然后使用带有二元奖励的PPO。你认为这能在单张H100显卡上实现吗?使用vllm进行生成,并将vllm/训练数据按30%/70%的比例划分,使用较短的序列长度,因为MiMo模型通常不那么多话。另外,在使用数据集时,你是将问题和答案结合起来,然后对整个文本进行下一个token预测,还是只对答案进行?我已经创建了一个训练代码,但非常想看看你的实现,因为这需要内存效率和速度。