合成数据 RL:任务定义就够了

发表
Zhen GuoZhen Guo 提交
作者: Yiduo Guo, Zhen GuoZhen Guo, Chuanwei Huang, Zi-Ang Wang, Zekai Zhang, Haofei Yu, Huishuai Zhang, Yikang Shen

摘要

强化学习 (RL) 是使基础模型适应专门任务的一种有效方式,但其对大规模人工标注数据的依赖限制了广泛应用。我们引入了 Synthetic Data RL,这是一个简单通用的框架,仅使用从任务定义生成的合成数据进行强化学习微调。我们的方法首先从任务定义和检索到的文档生成问题和答案对,然后基于模型的解决能力调整问题的难度,并使用模型在样本上的平均通过率来选择问题用于强化学习训练。在 Qwen-2.5-7B 上,我们的方法在 GSM8K 上实现了相对于基础模型 29.2% 的绝对提升(相比指令微调提升 2.9 个百分点,相比 Self-Instruct 提升 6.6 个百分点),在 MATH 上提升 8.7%,在 GPQA 上提升 13.1%(相比 SynthLLM 提升 7.0 个百分点),在 MedQA 上提升 8.9%,在 CQA(法律)上提升 17.7%,在 CFA(金融)上提升 13.7%。在相同数据预算下,它超越了有监督微调,并在各个数据集上几乎接近使用全量人工数据进行强化学习的效果(例如,在 GSM8K 上提升 17.2 个百分点)。添加 100 个人工示例仅将 GSM8K 的性能提升了 0.4 个百分点,显示出有限的附加价值。通过减少人工数据标注,Synthetic Data RL 实现了可扩展且高效的基于强化学习的模型适应。代码和演示可在 https://github.com/gydpku/Data_Synthesis_RL/ 获取。
查看 arXiv 页面查看 PDF

评论

Zhen GuoZhen Guo
论文作者
论文提交者

GitHub:https://github.com/gydpku/Data_Synthesis_RL