⏶28

XVerse：通过 DiT 调制实现对多主体身份与语义属性的一致性控制

06月26日发表

06月30日由 Zhao 提交

作者: Bowen Chen, Mengyi Zhao, Haomiao Sun, Li Chen, Xu Wang, Kang Du, Xinglong Wu

摘要

在文本到图像生成中，实现对主体身份和语义属性（姿态、风格、光照）的细粒度控制，特别是对于多个主体，往往会损害扩散变换器（DiTs）的可编辑性和连贯性。许多方法会引入伪影或遭受属性纠缠。为了克服这些挑战，我们提出了一种新颖的多主体受控生成模型 XVerse。通过将参考图像转换为用于令牌特定文本流调制的偏移量，XVerse 能够在不破坏图像潜在或特征的情况下，对特定主体进行精确且独立的控制。因此，XVerse 提供了高保真、可编辑的多主体图像合成，并能强大控制个体主体特征和语义属性。这一进展显著提升了个性化和复杂场景的生成能力。

查看 arXiv 页面查看 PDF

Zhao

论文提交者

XVerse 引入了一种处理多主体图像合成的新颖方法，该方法能够在不干扰整体图像潜在特征或特征的情况下，对单个主体进行精确和独立的控制。我们通过将参考图像转换为用于特定令牌文本流调制的偏移量来实现这一点。

这项创新实现了高保真、可编辑的图像生成，您可以在其中稳健地控制单个主体的特性（身份）及其语义属性。XVerse 显著增强了个性化和复杂场景生成的能力。

Zhao

论文提交者

项目页面: https://bytedance.github.io/XVerse/

Github: https://github.com/bytedance/XVerse

HuggingFace: https://huggingface.co/ByteDance/XVerse

Linoy Tsaban

如果在Spaces上也能有演示就太棒了🔥