⏶12
EasyText:用于多语言文本渲染的可控扩散Transformer
发表
由
Yiren Song 提交
作者: Runnan Lu, Yuxuan Zhang, Jailing Liu,
Haifa Wang, Yiren Song

摘要
利用扩散模型生成准确的多语言文本一直是人们所期望的,但仍然具有挑战性。最近的方法在渲染单一语言的文本方面取得了进展,但渲染任意语言仍然是一个尚未探索的领域。本文介绍了 EasyText,一个基于 DiT(Diffusion Transformer)的文本渲染框架,它将去噪潜在表示与编码为字符 token 的多语言字符 token 连接起来。我们提出了字符位置编码和位置编码插值技术,以实现可控和精确的文本渲染。此外,我们构建了一个包含 100 万多语言图像-文本标注的大规模合成文本图像数据集,以及一个包含 2 万张标注图像的高质量数据集,分别用于预训练和微调。大量的实验和评估表明,我们的方法在多语言文本渲染、视觉质量和布局感知文本集成方面的有效性和先进性。
利用扩散模型生成准确的多语言文本长期以来一直是人们期望的目标,但仍然具有挑战性。最近的方法在渲染单语文本方面取得了进展,但渲染任意语言仍然是一个未被探索的领域。本文介绍了 EasyText,一个基于 DiT(扩散 Transformer)的文本渲染框架,它将去噪潜空间与编码为字符 token 的多语言字符 token 连接起来。我们提出了字符位置编码和位置编码插值技术,以实现可控和精确的文本渲染。此外,我们构建了一个大规模合成文本图像数据集,包含 100 万个多语言图像-文本标注,以及一个包含 2 万个标注图像的高质量数据集,分别用于预训练和微调。大量的实验和评估表明,我们的方法在多语言文本渲染、视觉质量和布局感知文本集成方面具有有效性和先进性。