⏶39
T2I-R1:协同语义级和词元级CoT强化图像生成
发表
由
Dongzhi Jiang 提交
作者:
Dongzhi Jiang,
Ziyu Guo, Renrui Zhang,
Zhuofan Zong, Hao Li,
Le Zhuo,
Shilin Yan, Pheng-Ann Heng,
Hongsheng Li
摘要
大型语言模型最近的进展表明,思维链(CoT)和强化学习(RL)可以提高性能。然而,将这种推理策略应用于视觉生成领域的研究尚不充分。在本文中,我们提出了 T2I-R1,一个新颖的、推理增强的文本到图像生成模型,由具有双层 CoT 推理过程的 RL 提供支持。具体来说,我们确定了两个可用于增强不同生成阶段的 CoT 层次:(1) 用于提示高级规划的语义级 CoT,以及 (2) 用于逐块生成过程中低级像素处理的令牌级 CoT。为了更好地协调这两个层次的 CoT,我们引入了 BiCoT-GRPO,它结合了一系列生成奖励,可以在同一训练步骤中无缝优化两个生成 CoT。通过将我们的推理策略应用于基线模型 Janus-Pro,我们在 T2I-CompBench 上实现了 13% 的性能提升,在 WISE 基准上实现了 19% 的性能提升,甚至超过了最先进的模型 FLUX.1。代码可在以下网址获取:https://github.com/CaraJ7/T2I-R1
在本文中,我们提出了 T2I-R1,这是一种新颖的推理增强型文本到图像生成模型,由具有双层 CoT 推理过程的强化学习驱动。