巩固多模态离散扩散模型的强化学习

发表
Tianren MaTianren Ma 提交
作者: Tianren MaTianren Ma, Mu Zhang, Yibing Wang, Qixiang Ye

摘要

AI 生成总结
MaskGRPO 通过有效的重要性采样和特定模态的适应,解决了在离散扩散模型优化时遇到的挑战,从而提高了推理和生成质量。
离散扩散模型 (DDM) 结合奖励的优化仍然是一个挑战:非自回归范式使得重要性采样难以处理且展开复杂,这让组相对策略优化 (GRPO) 等强化学习方法感到困惑。在本研究中,我们引入 MaskGRPO,这是第一个能够实现离散扩散中可扩展多模态强化学习的可行方法,具有有效的重要性采样和模态特定适应。为此,我们首先阐明 DDM 的理论基础,这有助于构建一个捕捉有价值 token 波动用于梯度更新的重要性估计器。然后,我们精细地为视觉序列定制了展开方法,从而产生了多样的补全和可靠的优化梯度。在数学推理、编码和视觉生成基准测试中,MaskGRPO 带来了更稳定高效的更新,从而获得了更强的推理性能和更好的生成质量。本研究将 MaskGRPO 确立为一种系统的策略优化方法,也是第一种实现离散视觉扩散的实用方法。
查看 arXiv 页面查看 PDF

评论

Tianren MaTianren Ma
论文作者
论文提交者

maskgrpo

我们的项目已开源,网址为 https://github.com/martian422/MaskGRPO

在此仓库中,我们发布了:

  • 改进的重要性估计,用于在跨设备上控制随机性的DDM(扩散模型)强化。

  • 用于数学推理和编码任务RL训练的AR式反转

  • 用于图像生成和RL训练的Emerge sampler

  • 详细的SFT(监督微调)、RL和评估脚本。