⏶35
从少到多的泛化:通过上下文生成解锁更多可控性
发表
由
ShaojinWu 提交
作者:
Shaojin Wu,
Mengqi Huang,
Wenxu Wu, Yufeng Cheng, Fei Ding, Qian He
摘要
尽管主题驱动生成因其广泛的应用而在图像生成中得到了广泛探索,但它在数据可扩展性和主题可扩展性方面仍然存在挑战。对于第一个挑战,从策划单主题数据集到多主题数据集并对其进行扩展尤其困难。对于第二个挑战,最近的大多数方法都侧重于单主题生成,这使得在处理多主题场景时难以应用。在这项研究中,我们提出了一种高度一致的数据合成管道来应对这一挑战。该管道利用扩散 Transformer 的内在上下文生成能力,并生成高度一致的多主题配对数据。此外,我们还推出了 UNO,它由渐进式跨模态对齐和通用旋转位置嵌入组成。它是一种多图像条件下的主题到图像模型,从文本到图像模型迭代训练而来。大量实验表明,我们的方法可以在确保单主题和多主题驱动生成的可控性的同时,实现高度一致性。
🔥🔥 我们推出了 UNO,一个通用的框架,从单主体定制发展到多主体定制。UNO 展示了强大的泛化能力,能够在一个模型下统一各种任务。
🚄 代码链接:https://github.com/bytedance/UNO
🚀 项目页面:https://bytedance.github.io/UNO/
🌟 huggingface space:https://huggingface.co/spaces/bytedance-research/UNO-FLUX
👀 模型检查点:https://huggingface.co/bytedance-research/UNO