ReasonGen-R1:基于SFT和RL的自回归图像生成模型思维链(CoT)

发表
Yif YangYif Yang 提交
作者: Yu Zhang, Yunqi Li, Yif YangYifan Yang, Rui Wang, Yuqing Yang, Dai Qi, Jianmin Bao, Dongdong Chen, Chong Luo, Lili Qiu

摘要

尽管思维链推理和强化学习(RL)推动了自然语言处理(NLP)的突破,但它们在生成式视觉模型中的整合仍未得到充分探索。我们引入 ReasonGen-R1,这是一个两阶段框架:首先,通过在一个新生成的书面推理原理数据集上进行监督微调,赋予自回归图像生成器明确的基于文本的“思考”能力;然后,使用组相对策略优化(Group Relative Policy Optimization)来改进其输出。为了使模型能够在生成图像之前通过文本进行推理,我们自动生成并发布了一个由模型生成的、与视觉提示配对的原理语料库,从而实现对物体布局、风格和场景构图的受控规划。我们的 GRPO 算法使用来自预训练视觉语言模型的奖励信号来评估整体视觉质量,并在每次更新中优化策略。在 GenEval、DPG 和 T2I 基准上的评估表明,ReasonGen-R1 始终优于强大的基线和以往的最先进模型。更多信息请访问:aka.ms/reasongen。
查看 arXiv 页面查看 PDF
ReasonGen-R1:基于SFT和RL的自回归图像生成模型思维链(CoT)
ReasonGen-R1:基于SFT和RL的自回归图像生成模型思维链(CoT)

评论

Yif YangYif Yang
论文作者
论文提交者

figure0.png

尽管思维链(CoT)推理和强化学习(RL)在自然语言处理(NLP)领域取得了突破,但它们在生成式视觉模型中的整合仍未得到充分探索。我们引入了ReasonGen-R1,这是一个两阶段框架:首先,通过对新生成的书面推理数据集进行监督微调(SFT),为自回归图像生成器注入明确的基于文本的“思考”能力;然后,使用群组相对策略优化(GRPO)来优化其输出。为了使模型能够在生成图像之前通过文本进行推理,我们自动生成并发布了一个由模型生成的、与视觉提示配对的理由语料库,从而能够对物体布局、风格和场景构图进行受控规划。我们的GRPO算法利用预训练视觉-语言模型提供的奖励信号来评估整体视觉质量,并在每次更新中优化策略。在Geneval、DPG和T2I基准上的评估表明,ReasonGen-R1持续优于强大的基线模型和先前的最先进模型。我们将开源我们生成的推理数据集和训练代码,以加速基于文本推理驱动的图像生成领域的进一步发展。

teaser.png

🧠🎨 ReasonGen — 首个为自回归图像模型实现端到端“思考+生成”的框架!

创作者在创作前总会先思考——那为什么我们的生成器不应该呢?🤔➡️🖼️

我们如何实现

1️⃣ 构建了一个“指令→思考→生成”数据集,并通过SFT训练模型,使其在生成图像的同时也输出自己的思维链(CoT)。

2️⃣ 使用Qwen-VL-2.5-7B作为奖励模型对输出进行评分。

3️⃣ 应用GRPO强化学习来教导模型为每个提示选择最有用的思考。

我们的发现

✨ 让模型“先思考”显著提升了图像保真度和文本对齐度:

• GenEval 提升6%

• DPG-Bench 提升1.7%

• T2I-Benchmark 提升13.4%

重要性

自回归生成器在“绘制”之前进行规划,能生成更清晰的视觉效果,并更好地遵循指令——就像人类艺术家一样。🚀

我们已开源代码、数据和检查点,以便社区能进一步推动这一前沿领域。🔗👇

https://aka.ms/reasongen

关注我们,获取更新、消融实验结果和未来发布!