IA-T2I:互联网增强的文本到图像生成

发表
Ming LiMing Li 提交
作者: Chuanhao Li, Jianwen Sun, Yukang Feng, Mingliang Zhai, Yifan Chang, kaipengKaipeng Zhang

摘要

当前文本到图像 (T2I) 生成模型取得了可喜的成果,但它们在文本提示中隐含的知识不确定时会失败。例如,一个在二月份发布的 T2I 模型将难以生成四月份首映电影的合适海报,因为角色设计和风格对于模型来说是不确定的。为了解决这个问题,我们提出了一个互联网增强文本到图像生成 (IA-T2I) 框架,通过向 T2I 模型提供参考图像来使其明确这些不确定的知识。具体来说,设计了一个主动检索模块,根据给定的文本提示来确定是否需要参考图像;引入了一个分层图像选择模块,用于在图像搜索引擎返回的结果中找到最适合增强 T2I 模型的图像;提出了一个自反思机制,用于持续评估和改进生成的图像,以确保其与文本提示忠实对齐。为了评估所提出框架的性能,我们收集了一个名为 Img-Ref-T2I 的数据集,其中文本提示包含三种不确定知识类型:(1) 已知但罕见的。(2) 未知的。(3) 模棱两可的。此外,我们精心设计了一个复杂的提示,指导 GPT-4o 进行偏好评估,这已被证明具有与人类偏好评估相似的评估准确性。实验结果表明了我们框架的有效性,在人工评估中表现优于 GPT-4o 约 30%。
查看 arXiv 页面查看 PDF

评论

Ming LiMing Li
论文提交者

12 页,7 图,一个将互联网参考图像集成到 T2I/TI2I 模型中的框架