⏶6
VerIF:指令遵循中强化学习的验证工程
发表
由
Hao Peng 提交
作者:
Hao Peng, Yunjia Qi, Xiaozhi Wang, Bin Xu, Lei Hou, Juanzi Li
摘要
带有可验证奖励的强化学习(RLVR)已成为增强大型语言模型(LLMs)的关键技术,其中验证工程起着核心作用。然而,指令遵循中强化学习的最佳实践仍有待探索。在这项工作中,我们探索了指令遵循中强化学习的验证挑战,并提出了VerIF,一种将基于规则的代码验证与来自大型推理模型(例如QwQ-32B)的基于LLM的验证相结合的验证方法。为了支持这种方法,我们构建了一个高质量的指令遵循数据集VerInstruct,其中包含约22,000个实例及相关的验证信号。我们将VerIF应用于两个模型的强化学习训练,在几个具有代表性的指令遵循基准上取得了显著改进。训练后的模型在同等规模的模型中达到了最先进的性能,并对未见约束具有良好的泛化能力。我们进一步观察到它们的通用能力未受影响,这表明VerIF与强化学习的结合可以整合到现有强化学习配方中,以提升整体模型性能。我们已经发布了数据集、代码和模型,以促进未来的研究:https://github.com/THU-KEG/VerIF。
这篇论文介绍了 VerIF,一种在指令遵循中针对 RLVR 的有效验证方法。