⏶86
SDXL:改进潜在扩散模型以实现高分辨率图像合成
07月04日发表
04月12日由
AK 提交

作者:
Dustin Podell, Zion English,
Kyle Lacey,
Andreas Blattmann,
Tim Dockhorn,
Jonas Müller,
Joe Penna,
Robin Rombach




摘要
我们提出了 SDXL,一种用于文本到图像合成的潜在扩散模型。与先前版本的 Stable Diffusion 相比,SDXL 利用了三倍大的 UNet 主干网络:模型参数的增加主要是由于更多的注意力模块和更大的交叉注意力上下文,因为 SDXL 使用了第二个文本编码器。我们设计了多种新颖的条件调节方案,并在多个宽高比上训练了 SDXL。我们还引入了一个精炼模型,该模型使用后验图像到图像技术来提高 SDXL 生成样本的视觉保真度。我们证明,与先前版本的 Stable Diffusion 相比,SDXL 显示出显著改进的性能,并取得了与黑盒最先进图像生成器相媲美的结果。为了发扬促进开放研究和提高大型模型训练和评估透明度的精神,我们在 https://github.com/Stability-AI/generative-models 提供了代码和模型权重的访问权限。
评论
SDXL:高分辨率图像合成的新基准
链接 🔗:
👉 订阅: https://www.youtube.com/@Arxflix
👉 Twitter: https://x.com/arxflix
👉 LMNT (合作伙伴): https://lmnt.com/
作者:Arxflix
嘿,我每天在推特上用标签 #https://twitter.com/hashtag/shorthebrewpapereviews?src=hashtag_click 用希伯来语评论深度学习论文。到目前为止,我已经简要评论了大约深度学习论文。欢迎关注和评论
这篇论文的评论可以在 https://twitter.com/MikeE_3_14/status/1677747429221838848?s=20 找到