⏶86

SDXL：改进潜在扩散模型以实现高分辨率图像合成

07月04日发表

04月12日由

AK 提交

作者:

Dustin Podell, Zion English, TwoPerCent

Kyle Lacey,

Andreas Blattmann,

Tim Dockhorn,

Jonas Müller,

Joe Penna,

Robin Rombach

摘要

我们提出了 SDXL，一种用于文本到图像合成的潜在扩散模型。与先前版本的 Stable Diffusion 相比，SDXL 利用了三倍大的 UNet 主干网络：模型参数的增加主要是由于更多的注意力模块和更大的交叉注意力上下文，因为 SDXL 使用了第二个文本编码器。我们设计了多种新颖的条件调节方案，并在多个宽高比上训练了 SDXL。我们还引入了一个精炼模型，该模型使用后验图像到图像技术来提高 SDXL 生成样本的视觉保真度。我们证明，与先前版本的 Stable Diffusion 相比，SDXL 显示出显著改进的性能，并取得了与黑盒最先进图像生成器相媲美的结果。为了发扬促进开放研究和提高大型模型训练和评估透明度的精神，我们在 https://github.com/Stability-AI/generative-models 提供了代码和模型权重的访问权限。

查看 arXiv 页面查看 PDF