PrismLayers: 用于高质量多层透明图像生成模型的开放数据

发表
ResearcherResearcher 提交
作者: Junwen Chen, Heyang Jiang, Yanbin Wang, Keming Wu, Ji Li, Chao Zhang, Keiji Yanai, Dong Chen, Yuhui Yuan

摘要

从文本提示生成高质量的多层透明图像可以开启全新的创意控制水平,允许用户像编辑 LLMs 的文本输出一样轻松地编辑每一层。然而,由于缺乏大规模、高质量的多层透明数据语料库,多层生成模型的发展落后于传统的文本到图像模型。在本文中,我们通过以下方式解决了这一基本挑战:(i) 发布首个开放的、超高保真度的 PrismLayers (PrismLayersPro) 数据集,包含 200K (20K) 多层透明图像,具有准确的 alpha 通道,(ii) 引入了一种无需训练的合成流水线,可以使用现成的扩散模型按需生成此类数据,以及 (iii) 提供了强大、开源的多层生成模型 ART+,其美学效果与现代文本到图像生成模型相媲美。关键的技术贡献包括:LayerFLUX,它擅长生成具有准确 alpha 通道的高质量单层透明图像;以及 MultiLayerFLUX,它在人工标注的语义布局引导下,将多个 LayerFLUX 输出合成为完整图像。为了确保更高的质量,我们应用了严格的过滤阶段来去除伪影和语义不匹配,然后进行人工选择。在我们的合成 PrismLayersPro 上对最先进的 ART 模型进行微调,得到了 ART+,它在 60% 的一对一用户研究比较中优于原始 ART,甚至达到了 FLUX.1-[dev] 模型生成图像的视觉质量。我们预计,我们的工作将为多层透明图像生成任务建立坚实的数据集基础,从而支持需要精确、可编辑且视觉效果引人注目的分层图像的研究和应用。
查看 arXiv 页面查看 PDF

评论

ResearcherResearcher
论文提交者

关于多层图像生成的基础性工作