ExGRPO:学习从经验中推理

发表
Runzhe ZhanRunzhe Zhan 提交
作者: Runzhe ZhanRunzhe Zhan, Yafu Li, Zhi Wang, Xiaoye Qu, Dongrui Liu, Jing Shao, Derek F. Wong, Yu Cheng

摘要

AI 生成总结
ExGRPO,一个优先考虑有价值推理经验的框架,改进并稳定了大型语言模型的可验证奖励强化学习。
可验证奖励强化学习 (RLVR) 是一种新兴的范式,用于提高大型语言模型的推理能力。然而,标准的联机训练在单次更新后会丢弃滚动体验,导致计算效率低下和不稳定性。虽然之前关于 RL 的工作强调了重用过去经验的好处,但经验特征在塑造大型推理模型的学习动态方面的作用仍未得到充分研究。在本文中,我们首次研究了什么使推理经验有价值,并将滚动正确性和熵确定为经验价值的有效指标。基于这些见解,我们提出了 ExGRPO (Experiential Group Relative Policy Optimization),这是一个组织和优先处理有价值经验的框架,并采用混合策略目标来平衡探索与经验利用。对五个骨干模型(1.5B-8B 参数)的实验表明,ExGRPO 在数学/通用基准上始终提高了推理性能,比联机 RLVR 平均提高了 +3.5/7.6 分。此外,ExGRPO 稳定了在联机方法失败的更强和更弱模型上的训练。这些结果强调,原则性的经验管理是高效且可扩展的 RLVR 的关键组成部分。
查看 arXiv 页面查看 PDF

评论

Runzhe ZhanRunzhe Zhan
论文作者
论文提交者

我们系统地研究了什么使 RLVR 中的推理体验有价值,并提出了一个利用这些见解来利用高价值体验以实现高效 RLVR 的框架。

模型集:https://huggingface.co/collections/rzzhan/exgrpo-68d8e302efdfe325187d5c96

Runzhe ZhanRunzhe Zhan
论文作者
论文提交者

已添加到元数据中。