⏶104
FlowRL: 匹配LLM推理的奖励分布
发表
由
Daixuan Cheng 提交

作者:
Xuekai Zhu,
Daixuan Cheng,
Dinghuai Zhang, Hengli Li,
Kaiyan Zhang, Che Jiang, Youbang Sun, Ermo Hua,
Yuxin Zuo,
Xingtai Lv,
Qizheng Zhang,
Lin Chen, Fanghao Shao, Bo Xue, Yunchong Song,
Zhenjie Yang,
Ganqu Cui, Ning Ding,
Jianfeng Gao, Xiaodong Liu, Bowen Zhou, Hongyuan Mei,
Zhouhan Lin


摘要
AI 生成总结
FlowRL 通过流量平衡匹配完整的奖励分布,增强了大型语言模型的强化学习,相较于奖励最大化方法,提高了多样性和性能。我们提出FlowRL:通过流平衡匹配完整的奖励分布,而不是在大型语言模型(LLM)强化学习(RL)中最大化奖励。最近的先进推理模型采用了奖励最大化方法(例如PPO和GRPO),这些方法倾向于过度优化主导奖励信号,而忽略不频繁但有效的推理路径,从而降低了多样性。相比之下,我们使用一个可学习的划分函数将标量奖励转换为归一化的目标分布,然后最小化策略和目标分布之间的反向KL散度。我们将这个想法实现为一个流平衡优化方法,该方法促进了多样化的探索和可泛化的推理轨迹。我们在数学和代码推理任务上进行了实验:FlowRL在数学基准上比GRPO平均提高了10.0%,比PPO提高了5.1%,并在代码推理任务上表现始终优于PPO。这些结果凸显了奖励分布匹配是LLM强化学习中高效探索和多样化推理的关键一步。

评论

论文作者
论文提交者
- 我们提出了 FlowRL,一种策略优化算法,它将奖励最大化转移到通过流平衡进行奖励分布匹配,从而鼓励探索多样化的推理路径,同时解决了现有 RL 方法固有的模式崩溃限制。
- 我们引入了长度归一化和重要性采样,以便在可变长度的 CoT 推理上进行有效训练,解决了梯度爆炸和采样不匹配问题。
- FlowRL 在数学基准测试中分别比 GRPO 和 PPO 高出 10.0% 和 5.1%,并在代码推理任务上展现出强大的泛化能力,多样性分析证实了更广泛的解决方案探索。
论文作者
这里有一篇讨论此实现的帖子,链接如下:https://x.com/zhu_xuekai/with_replies。
我们收到了关于使用提示的最后一个 token 来节省计算量的建议——我们将在规模化实验中尝试这一点。
欢迎进一步讨论!