⏶31
Webscale-RL:自动化数据管道,用于将 RL 数据扩展到预训练级别
发表
由
Weiran Yao 提交
作者: Zhepeng Cen,
Haolin Chen, Shiyu Wang, Zuxin Liu, Zhiwei Liu, Ding Zhao, Silvio Savarese, Caiming Xiong, Huan Wang, Weiran Yao
摘要
AI 生成总结
可扩展的数据引擎将大规模预训练文档转换为用于强化学习的多种问答对,显著提高了模型的性能和效率。大型语言模型(LLMs)通过在海量文本语料库上的模仿学习取得了显著的成功,但这种范式产生了训练-生成差距,并限制了鲁棒的推理能力。强化学习(RL)提供了一种更具数据效率的解决方案,能够弥合这一差距,但其应用受到一个关键数据瓶颈的限制:现有的RL数据集比网络规模的预训练语料库小几个数量级,而且多样性不足。为了解决这个问题,我们引入了Webscale-RL管道,这是一个可扩展的数据引擎,能够系统地将大规模预训练文档转换为数百万个多样化、可验证的用于RL的问答对。利用该管道,我们构建了Webscale-RL数据集,其中包含120万个跨越9个以上领域的示例。我们的实验表明,在该数据集上训练的模型在基准测试中的表现明显优于持续预训练和强大的数据精炼基线。值得注意的是,使用我们数据集的RL训练效率显著提高,在所需的token数量减少多达100倍的情况下达到了持续预训练的性能。我们的工作为RL扩展到预训练级别提供了一条可行的途径,从而实现了更强大、更高效的语言模型。

LLM 的强化学习受限于微小的数据集(<10B token),而预训练则有(>1T)。
我们的 Webscale-RL 管道将预训练文本转换为多样化的、可用于 RL 的 QA 数据 — 将 RL 规模扩展到预训练水平!
所有代码和数据集均开源!
HF🤗: https://huggingface.co/datasets/Salesforce/Webscale-RL
GitHub 🤖: https://github.com/SalesforceAIResearch/PretrainRL-pipeline