⏶222

强化预训练

06月09日发表

06月10日由 Li Dong 提交

作者: Qingxiu Dong, Li Dong Li Dong, Yao Tang, ytz Tianzhu Ye, Yutao Sun, Zhifang Sui, Furu Wei

摘要

In this work, we introduce Reinforcement Pre-Training (RPT) as a new scaling paradigm for large language models and reinforcement learning (RL). Specifically, we reframe next-token prediction as a reasoning task trained using RL, where it receives verifiable rewards for correctly predicting the next token for a given context. RPT offers a scalable method to leverage vast amounts of text data for general-purpose RL, rather than relying on domain-specific annotated answers. By incentivizing the capability of next-token reasoning, RPT significantly improves the language modeling accuracy of predicting the next tokens. Moreover, RPT provides a strong pre-trained foundation for further reinforcement fine-tuning. The scaling curves show that increased training compute consistently improves the next-token prediction accuracy. The results position RPT as an effective and promising scaling paradigm to advance language model pre-training.

查看 arXiv 页面查看 PDF

Li Dong

论文作者

论文提交者

在这项工作中，我们引入了强化预训练（Reinforcement Pre-Training, RPT），作为大型语言模型和强化学习（RL）的一种新的扩展范式。具体来说，我们将下一词元预测重构为一个使用RL训练的推理任务，它通过正确预测给定上下文的下一词元来获得可验证的奖励。RPT提供了一种可扩展的方法，可以利用大量的文本数据进行通用RL，而不是依赖领域特定的标注答案。通过激励下一词元推理的能力，RPT显著提高了预测下一词元的语言模型准确性。此外，RPT为进一步的强化微调提供了坚实的基础。扩展曲线表明，增加训练计算量能持续提高下一词元预测的准确性。这些结果使RPT成为推进语言模型预训练的有效且有前景的扩展范式。

Yinxu Pan

在其他数学推理基准（如aime24、aime25、math500等）上的表现如何？

ytz

论文作者

谢谢提问。根据表2“RL前”列，RPT在强化微调前在数学问题上表现出更强的性能。

我们也在您提到的数学数据集上取得了积极的成果。我们正在继续扩大规模并整理我们的工作，在接下来的时间里，我们将发布更大规模实验的评估结果，其中将包括您感兴趣的数学数据集。

Nehemiah

我从没想过强化学习可以用于预训练

Damola

看起来很酷。你可以说这是“NTR”[下一词元推理]。

Xiangyu

🤣

brucewan666

NTR 太棒了！

Junlin Zhou

天哪 🤣

高喆

优秀的论文。但我对训练成本有所疑问。原始GPT中的因果掩码可以提高预训练的效率。但在这项工作中，我发现很难在RPT中引入因果掩码，这难道不会增加RPT的成本吗？

Tony Congqian Wang

我也想知道。在我的理解中，这是一种预训练，因为它是在一个精选数据集上进行的自监督训练。但它在计算效率方面与标准的预训练不同。

Rasmus Lindahl

如果递归地应用 RPT——让模型在其自身的推理链中对每个 token 进行推理——会发生什么？对推理过程本身进行元推理会带来更好的性能，还是计算开销会超过其收益？:)

Nehemiah

我看到论文中提到，RPT 是从一个推理模型初始化的，并且在“未来工作”部分提到，将研究从标准的基础 LLM 初始化 RPT 的可能性。我想知道，如果 RPT 是从基础 LLM 而非推理模型初始化，其训练和思维过程会有何种差异。

ytz

论文作者

我们正在努力。敬请关注！

Tony Congqian Wang

如果我没弄错的话，你的方法不允许像标准预训练那样进行大规模并行扩展，因此你不应该只局限于下一个token预测。

除了下一个token预测，你有没有考虑过其他受预训练启发的强化学习目标？比如BERT中的掩码token预测和下一句预测。

yehya

你能提供你的微调代码吗？我感兴趣的是将同样的方法应用到推理模型MiMo-7B上，使用相同的代理模型进行熵计算，但首先预处理相同的数据集，然后使用带有二元奖励的PPO。你认为这能在单张H100显卡上实现吗？使用vllm进行生成，并将vllm/训练数据按30%/70%的比例划分，使用较短的序列长度，因为MiMo模型通常不那么多话。另外，在使用数据集时，你是将问题和答案结合起来，然后对整个文本进行下一个token预测，还是只对答案进行？我已经创建了一个训练代码，但非常想看看你的实现，因为这需要内存效率和速度。

强化预训练

摘要

评论