预训练数据上的强化学习

发表
taesiritaesiri 提交
作者: SihengLiSiheng Li, Kejiao Li, xuZenan Xu, Guanhua HuangGuanhua Huang, Evander Yang, Kun Li, Haoyuan WUHaoyuan Wu, Jiajia Wu, Zihao Zheng, Chenchen Zhang, Kun Shi, Kyrierl Deng, Qi Yi, Ruibin Xiong, Tingqiang Xu, Yuhao Jiang, Jianfeng Yan, Yuyuan Zeng, Guanghui Xu, Jinbao Xue, Zhijiang Xu, Zheng Fang, Shuai LiShuai Li, Qibin Liu, Xiaoxue Li, Zhuoyu Li, Yangyu Tao, Fei Gao, Cheng Jiang, Bo Chao Wang, Kai Liu, Jianchen Zhu, Wai Lam, Wayyt Wang, Bo Zhou, Di Wang

摘要

AI 生成总结
Reinforcement Learning on Pre-Training data (RLPT) 通过自主探索预训练数据中有意义的轨迹来优化大型语言模型,在没有人工标注的情况下提高了可泛化的推理能力。
计算资源呈指数级增长与高质量文本数据有限增长之间的日益增长的差距,现在限制了大型语言模型(LLMs)的传统扩展方法。为了应对这一挑战,我们提出了预训练数据上的强化学习(RLPT),这是一种用于优化 LLMs 的新型训练时间扩展范例。与先前主要通过监督学习进行训练扩展的方法不同,RLPT 使策略能够自主探索有意义的轨迹,从预训练数据中学习并通过强化学习(RL)提高其能力。虽然现有的 RL 策略,如人类反馈强化学习(RLHF)和可验证奖励强化学习(RLVR),依赖于人类标注来构建奖励,但 RLPT 通过直接从预训练数据中提取奖励信号来消除这种依赖。具体而言,它采用下一段推理目标,奖励策略根据先前上下文准确预测后续文本片段。这种制定允许在预训练数据上扩展 RL,鼓励探索更丰富的轨迹,跨越更广泛的上下文,从而培养更具泛化性的推理技能。在通用领域和数学推理基准测试上的大量模型实验验证了 RLPT 的有效性。例如,当应用于 Qwen3-4B-Base 时,RLPT 在 MMLU、MMLU-Pro、GPQA-Diamond、KOR-Bench、AIME24 和 AIME25 上分别实现了 3.0、5.1、8.1、6.0、6.6 和 5.3 的绝对改进。结果进一步表明了有利的扩展行为,预示着随着计算量的增加,将继续获得收益。此外,RLPT 提供了一个坚实的基础,扩展了 LLMs 的推理边界并增强了 RLVR 的性能。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

计算资源的指数级增长与高质量文本数据有限的增长之间的日益增长的差距,现在制约了大型语言模型 (LLM) 的传统扩展方法。为了应对这一挑战,我们提出了 Reinforcement Learning on Pre-Training data (RLPT),一种用于优化 LLM 的新的训练时间扩展范式。与先前主要通过监督学习进行训练扩展的方法不同,RLPT 使策略能够自主探索有意义的轨迹,从预训练数据中学习并通过强化学习 (RL) 提高其能力。虽然现有的 RL 策略(如人类反馈强化学习 (RLHF) 和可验证奖励强化学习 (RLVR))依赖于人工注释来构建奖励,但 RLPT 通过直接从预训练数据中获取奖励信号来消除这种依赖。具体来说,它采用下一段推理目标,奖励策略根据前文正确预测后续文本段的能力。这种方法允许在预训练数据上扩展 RL,鼓励探索更丰富的轨迹、更广泛的上下文,从而培养更具泛化性的推理技能。在通用领域和数学推理基准上对多个模型进行的广泛实验验证了 RLPT 的有效性。例如,当应用于 Qwen3-4B-Base 时,RLPT 在 MMLU、MMLU-Pro、GPQA-Diamond、KOR-Bench、AIME24 和 AIME25 上分别带来了 3.0、5.1、8.1、6.0、6.6 和 5.3 的绝对提升。结果进一步显示了有利的扩展行为,表明随着计算资源的增加,仍有巨大的增长潜力。此外,RLPT 提供了一个坚实的基础,扩展了 LLM 的推理边界,并提高了 RLVR 性能。