TempFlow-GRPO: 流动模型中 GRPO 的时效性研究

发表
fufu 提交
作者: xxhXiaoxuan He, Siming Fu, yuke zhaoYuke Zhao, Wanli Li, Jian Yang, Dacheng Yin, Fengyun Rao, Bo Zhang

摘要

最近用于文本生成图像的流匹配模型已达到卓越的质量,但它们与强化学习的结合以进行人类偏好对齐仍不理想,这阻碍了细粒度的基于奖励的优化。我们观察到,有效训练流模型的 GRPO 的主要障碍在于现有方法中的时间均匀性假设:稀疏的终端奖励与均匀的信用分配未能捕捉到生成时间步长中决策的不同关键性,导致探索效率低下和次优收敛。为了弥补这一缺点,我们引入了 TempFlow-GRPO(时间流 GRPO),一个有原则的 GRPO 框架,它捕获并利用流式生成中固有的时间结构。TempFlow-GRPO 引入了两项关键创新:(i) 一种轨迹分支机制,通过将随机性集中在指定的分支点来提供过程奖励,从而无需专门的中间奖励模型即可实现精确的信用分配;(ii) 一种噪声感知加权方案,根据每个时间步的内在探索潜力来调节策略优化,优先考虑高影响力的早期阶段的学习,同时确保后期阶段的稳定完善。这些创新使模型能够进行时间感知的优化,尊重底层生成动态,从而在人类偏好对齐和标准文本生成图像基准测试中实现最先进的性能。
查看 arXiv 页面查看 PDF

评论

fufu
论文提交者

image.png

image.png

image.png