RepText:通过复制渲染可视化文本

发表
Haofan WangHaofan Wang 提交
作者: Haofan WangHaofan Wang, Yujia XuYujia Xu, Yimeng Li, Junchen Li, Chaowei Zhang, WJJing Wang, Kejia Yang, Zhibo ChenZhibo Chen

摘要

尽管当代的文本到图像生成模型在生成视觉上吸引人的图像方面取得了显著突破,但其生成精确灵活的排版元素,特别是非拉丁字母的能力仍然受限。为了解决这些限制,我们从一个朴素的假设出发:文本理解只是文本渲染的充分条件,而非必要条件。基于此,我们提出了RepText,旨在赋予预训练的单语文本到图像生成模型准确渲染或更精确地说,复制用户指定字体中的多语言视觉文本的能力,而无需真正理解它们。具体来说,我们采用了ControlNet的设置,并额外集成了与语言无关的字形和渲染文本的位置,以实现生成和谐的视觉文本,允许用户根据需求定制文本内容、字体和位置。为了提高准确性,采用了文本感知损失以及扩散损失。此外,为了稳定渲染过程,在推理阶段,我们直接用带有噪声的字形潜在向量进行初始化,而不是随机初始化,并采用区域掩码将特征注入限制在文本区域,以避免背景失真。我们进行了广泛的实验,验证了我们的RepText相对于现有工作的有效性,我们的方法优于现有的开源方法,并取得了与原生多语言闭源模型相当的结果。为了更公平起见,我们在最后详尽讨论了其局限性。
查看 arXiv 页面查看 PDF

评论

Haofan WangHaofan Wang
论文作者
论文提交者

https://reptext.github.io/

Haofan WangHaofan Wang
论文作者
论文提交者

example1.png