⏶35

从少到多的泛化：通过上下文生成解锁更多可控性

04月02日发表

04月09日由 ShaojinWu 提交

作者: Shaojin Wu, Mengqi Huang, wuwenxu Wenxu Wu, Yufeng Cheng, Fei Ding, Qian He

摘要

尽管主题驱动生成因其广泛的应用而在图像生成中得到了广泛探索，但它在数据可扩展性和主题可扩展性方面仍然存在挑战。对于第一个挑战，从策划单主题数据集到多主题数据集并对其进行扩展尤其困难。对于第二个挑战，最近的大多数方法都侧重于单主题生成，这使得在处理多主题场景时难以应用。在这项研究中，我们提出了一种高度一致的数据合成管道来应对这一挑战。该管道利用扩散 Transformer 的内在上下文生成能力，并生成高度一致的多主题配对数据。此外，我们还推出了 UNO，它由渐进式跨模态对齐和通用旋转位置嵌入组成。它是一种多图像条件下的主题到图像模型，从文本到图像模型迭代训练而来。大量实验表明，我们的方法可以在确保单主题和多主题驱动生成的可控性的同时，实现高度一致性。

查看 arXiv 页面查看 PDF

ShaojinWu

论文作者

论文提交者