⏶10
ReasonGen-R1:基于SFT和RL的自回归图像生成模型思维链(CoT)
发表
由
Yif Yang 提交
作者: Yu Zhang, Yunqi Li,
Yifan Yang, Rui Wang, Yuqing Yang, Dai Qi, Jianmin Bao, Dongdong Chen, Chong Luo, Lili Qiu
摘要
尽管思维链推理和强化学习(RL)推动了自然语言处理(NLP)的突破,但它们在生成式视觉模型中的整合仍未得到充分探索。我们引入 ReasonGen-R1,这是一个两阶段框架:首先,通过在一个新生成的书面推理原理数据集上进行监督微调,赋予自回归图像生成器明确的基于文本的“思考”能力;然后,使用组相对策略优化(Group Relative Policy Optimization)来改进其输出。为了使模型能够在生成图像之前通过文本进行推理,我们自动生成并发布了一个由模型生成的、与视觉提示配对的原理语料库,从而实现对物体布局、风格和场景构图的受控规划。我们的 GRPO 算法使用来自预训练视觉语言模型的奖励信号来评估整体视觉质量,并在每次更新中优化策略。在 GenEval、DPG 和 T2I 基准上的评估表明,ReasonGen-R1 始终优于强大的基线和以往的最先进模型。更多信息请访问:aka.ms/reasongen。


尽管思维链(CoT)推理和强化学习(RL)在自然语言处理(NLP)领域取得了突破,但它们在生成式视觉模型中的整合仍未得到充分探索。我们引入了ReasonGen-R1,这是一个两阶段框架:首先,通过对新生成的书面推理数据集进行监督微调(SFT),为自回归图像生成器注入明确的基于文本的“思考”能力;然后,使用群组相对策略优化(GRPO)来优化其输出。为了使模型能够在生成图像之前通过文本进行推理,我们自动生成并发布了一个由模型生成的、与视觉提示配对的理由语料库,从而能够对物体布局、风格和场景构图进行受控规划。我们的GRPO算法利用预训练视觉-语言模型提供的奖励信号来评估整体视觉质量,并在每次更新中优化策略。在Geneval、DPG和T2I基准上的评估表明,ReasonGen-R1持续优于强大的基线模型和先前的最先进模型。我们将开源我们生成的推理数据集和训练代码,以加速基于文本推理驱动的图像生成领域的进一步发展。
🧠🎨 ReasonGen — 首个为自回归图像模型实现端到端“思考+生成”的框架!
创作者在创作前总会先思考——那为什么我们的生成器不应该呢?🤔➡️🖼️
我们如何实现
1️⃣ 构建了一个“指令→思考→生成”数据集,并通过SFT训练模型,使其在生成图像的同时也输出自己的思维链(CoT)。
2️⃣ 使用Qwen-VL-2.5-7B作为奖励模型对输出进行评分。
3️⃣ 应用GRPO强化学习来教导模型为每个提示选择最有用的思考。
我们的发现
✨ 让模型“先思考”显著提升了图像保真度和文本对齐度:
• GenEval 提升6%
• DPG-Bench 提升1.7%
• T2I-Benchmark 提升13.4%
重要性
自回归生成器在“绘制”之前进行规划,能生成更清晰的视觉效果,并更好地遵循指令——就像人类艺术家一样。🚀
我们已开源代码、数据和检查点,以便社区能进一步推动这一前沿领域。🔗👇
https://aka.ms/reasongen
关注我们,获取更新、消融实验结果和未来发布!