从少到多的泛化:通过上下文生成解锁更多可控性

发表
ShaojinWuShaojinWu 提交
作者: ShaojinWuShaojin Wu, Mengqi HuangMengqi Huang, wuwenxuWenxu Wu, Yufeng Cheng, Fei Ding, Qian He

摘要

尽管主题驱动生成因其广泛的应用而在图像生成中得到了广泛探索,但它在数据可扩展性和主题可扩展性方面仍然存在挑战。对于第一个挑战,从策划单主题数据集到多主题数据集并对其进行扩展尤其困难。对于第二个挑战,最近的大多数方法都侧重于单主题生成,这使得在处理多主题场景时难以应用。在这项研究中,我们提出了一种高度一致的数据合成管道来应对这一挑战。该管道利用扩散 Transformer 的内在上下文生成能力,并生成高度一致的多主题配对数据。此外,我们还推出了 UNO,它由渐进式跨模态对齐和通用旋转位置嵌入组成。它是一种多图像条件下的主题到图像模型,从文本到图像模型迭代训练而来。大量实验表明,我们的方法可以在确保单主题和多主题驱动生成的可控性的同时,实现高度一致性。
查看 arXiv 页面查看 PDF

评论

ShaojinWuShaojinWu
论文作者
论文提交者

teaser.jpg

🔥🔥 我们推出了 UNO,一个通用的框架,从单主体定制发展到多主体定制。UNO 展示了强大的泛化能力,能够在一个模型下统一各种任务。

🚄 代码链接:https://github.com/bytedance/UNO

🚀 项目页面:https://bytedance.github.io/UNO/

🌟 huggingface space:https://huggingface.co/spaces/bytedance-research/UNO-FLUX

👀 模型检查点:https://huggingface.co/bytedance-research/UNO