超越权衡:用于推理模型指令遵循的自监督强化学习

发表
QianyuHeQianyuHe 提交
作者: rainQingyu Ren, Qianyu He, Bowei Zhang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu

摘要

推理模型在解决复杂问题方面表现出色,但在推理能力和指令遵循能力之间存在一个令人担忧的权衡。现有改进指令遵循能力的方法依赖于更强的外部模型,这造成了方法学上的瓶颈和实际限制,包括增加成本和可访问性限制。我们提出了一种自监督强化学习框架,该框架利用推理模型自身的内部信号来改进指令遵循能力,而无需外部监督。大量的实验表明,我们的框架显著提高了指令遵循能力,同时保持了推理性能,为增强推理模型中的指令遵循能力提供了一种可扩展且经济高效的方法。数据和代码可在 https://github.com/Rainier-rq/verl-if 公开获取。
查看 arXiv 页面查看 PDF

评论

QianyuHeQianyuHe
论文提交者

实验结果表明,我们训练的模型在全面的指令遵循基准测试中始终优于基线方法,同时保持了卓越的推理能力。对训练动态的分析表明,与直接的多约束训练方法相比,我们的增量约束课程在优化过程中产生了更密集的奖励信号。此外,我们证明了在冷启动阶段整合特定于指令遵循的推理数据至关重要,而不是仅仅依赖于那些已饱和数学和逻辑任务的推理模型。代码和数据已公开,网址为 https://github.com/Rainier-rq/verl-if。