Visual-CoG:面向文本到图像生成的阶段感知链式引导强化学习

发表
taesiritaesiri 提交
作者: Yaqi Li, Peng Chen, Mingyang Han, Bu Pi, Haoxiang Shi, Runzhou Zhao, Yang Yao, Xuan Zhang, Jun Song

摘要

尽管最近的自回归模型在文本到图像(T2I)生成方面取得了令人瞩目的进展,但它们处理多属性和模糊提示的能力仍然有限。为了解决这些限制,现有工作采用了链式思考(CoT)来实现阶段感知视觉合成,并使用强化学习(RL)来提高推理能力。然而,大多数模型仅在生成阶段结束时提供奖励信号。这种单一的最终奖励指导使得难以确定哪些阶段对最终结果做出了积极贡献,并可能导致次优策略。为了解决这个问题,我们提出了视觉链式指导(Visual-CoG)范式,该范式由三个阶段组成:语义推理、过程细化和结果评估,并通过阶段感知奖励在整个图像生成管道中提供即时指导。我们进一步构建了一个视觉认知基准 VisCog-Bench,它包含四个子任务来评估语义推理的有效性。在 GenEval、T2I-CompBench 和提出的 VisCog-Bench 上的全面评估显示,性能分别提高了 15%、5% 和 19%,证明了提出的 Visual-CoG 的卓越性能。我们将很快发布所有资源。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

> 尽管最近的自回归模型在文本到图像(T2I)生成方面取得了令人瞩目的进展,但它们处理多属性和模糊提示的能力仍然有限。为了解决这些限制,现有工作应用了思维链(CoT)来实现阶段感知视觉合成,并采用了强化学习(RL)来提高推理能力。然而,大多数模型仅在生成阶段的末尾提供奖励信号。这种单调的、仅在最后提供指导的方式使得难以确定哪些阶段对最终结果有积极贡献,并可能导致次优策略。为了解决这个问题,我们提出了一种视觉思维链(Visual-CoG)范式,包含三个阶段:语义推理、过程细化和结果评估,并具有阶段感知奖励,在整个图像生成流程中提供即时指导。我们进一步构建了一个视觉认知基准VisCog-Bench,它包含四个子任务来评估语义推理的有效性。在GenEval、T2I-CompBench和我们提出的VisCog-Bench上的综合评估分别显示了15%、5%和19%的改进,证明了我们提出的Visual-CoG的卓越性能。我们将很快发布所有资源。