⏶50
SynthRL:通过可验证数据合成扩展视觉推理
发表
由
Xiangyan Liu 提交
作者:
Zijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh
摘要
通过可验证奖励(RLVR)进行强化学习训练的视觉-语言模型(VLM)在有效扩展测试时间计算方面取得了显著进展。在这项工作中,我们研究了合成的强化学习数据如何进一步改进 RLVR。为此,我们提出了 SynthRL——一个可扩展且有保证的自动数据扩展管道,用于面向推理的强化学习训练。SynthRL 包含三个关键阶段:(1)选择具有适当分布的种子问题,(2)将它们扩展为更具挑战性的变体,同时保留原始答案,以及(3)一个有保证的验证阶段,确保近乎完美的正确性和难度提升。我们的实证实验证明了 SynthRL 的可扩展性和有效性。当应用于 MMK12 数据集时,SynthRL 从大约 8K 个种子样本中合成了超过 3.3K 个额外的可验证、具有挑战性的问题。使用我们合成数据训练的模型在五个域外视觉数学推理基准上取得了持续的提升,相对于仅使用种子数据训练的基线模型有显著改进。值得注意的是,详细分析表明,增益在最具挑战性的评估样本上更为显著,这突出了 SynthRL 在引发更深层次、更复杂推理模式方面的有效性。
代码: https://github.com/NUS-TRAIL/SynthRL
模型 & 数据: https://huggingface.co/collections/Jakumetsu/synthrl-6839d265136fa9ca717105c5