SDXL:改进潜在扩散模型以实现高分辨率图像合成

07月04日发表
04月12日由 AKAK 提交
作者: Dustin PodellDustin Podell, Zion English, TwoPerCentKyle Lacey, Andreas BlattmannAndreas Blattmann, Tim DockhornTim Dockhorn, Jonas MüllerJonas Müller, Joe PennaJoe Penna, Robin RombachRobin Rombach

摘要

我们提出了 SDXL,一种用于文本到图像合成的潜在扩散模型。与先前版本的 Stable Diffusion 相比,SDXL 利用了三倍大的 UNet 主干网络:模型参数的增加主要是由于更多的注意力模块和更大的交叉注意力上下文,因为 SDXL 使用了第二个文本编码器。我们设计了多种新颖的条件调节方案,并在多个宽高比上训练了 SDXL。我们还引入了一个精炼模型,该模型使用后验图像到图像技术来提高 SDXL 生成样本的视觉保真度。我们证明,与先前版本的 Stable Diffusion 相比,SDXL 显示出显著改进的性能,并取得了与黑盒最先进图像生成器相媲美的结果。为了发扬促进开放研究和提高大型模型训练和评估透明度的精神,我们在 https://github.com/Stability-AI/generative-models 提供了代码和模型权重的访问权限。

评论

Mike ErlihsonMike Erlihson

嘿,我每天在推特上用标签 #https://twitter.com/hashtag/shorthebrewpapereviews?src=hashtag_click 用希伯来语评论深度学习论文。到目前为止,我已经简要评论了大约深度学习论文。欢迎关注和评论

这篇论文的评论可以在 https://twitter.com/MikeE_3_14/status/1677747429221838848?s=20 找到

NakulNakul

印度 natraj 手持板球拍

zidevzidev
此评论已隐藏。
Julien BLANCHONJulien BLANCHON
SDXL:高分辨率图像合成的新基准

https://cdn-uploads.huggingface.co/production/uploads/6186ddf6a7717cb375090c01/f6jcGDa_TlWTytd_hCkFz.mp4

链接 🔗:

👉 订阅: https://www.youtube.com/@Arxflix

👉 Twitter: https://x.com/arxflix

👉 LMNT (合作伙伴): https://lmnt.com/

作者:Arxflix

9t4iCUHx_400x400-1.jpg

axlaxl
此评论已隐藏。
WeeeeeWeeeee

你他妈的怎么下载模型。保持简单,拜托,一大堆文字墙,而我们想要的只是模型