⏶60
PixArt-α:用于照片级真实感文本到图像合成的扩散Transformer快速训练
09月30日发表
04月12日由
AK 提交

作者: Junsong Chen,
Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie1, Yue Wu, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, Zhenguo Li
摘要
最先进的文本到图像(T2I)模型需要巨大的训练成本(例如,数百万 GPU 小时),严重阻碍了 AIGC 社区的根本创新,同时增加了 CO2 排放。本文介绍了 PIXART-alpha,这是一种基于 Transformer 的 T2I 扩散模型,其图像生成质量与最先进的图像生成器(例如,Imagen、SDXL 甚至 Midjourney)相媲美,达到了接近商业应用的标准。此外,如图 1 和图 2 所示,它支持高达 1024px 分辨率的高分辨率图像合成,且训练成本较低。为了实现这一目标,提出了三个核心设计:(1)训练策略分解:我们设计了三个不同的训练步骤,分别优化像素依赖性、文本-图像对齐和图像美学质量;(2)高效的 T2I Transformer:我们将交叉注意力模块集成到扩散 Transformer(DiT)中,以注入文本条件并简化计算密集型的类条件分支;(3)高信息量数据:我们强调文本-图像对中概念密度的重要性,并利用大型视觉-语言模型自动标记密集的伪字幕,以辅助文本-图像对齐学习。因此,PIXART-alpha 的训练速度显著超过了现有的大规模 T2I 模型,例如,PIXART-alpha 的训练时间仅为 Stable Diffusion v1.5 的 10.8%(675 个 A100 GPU 天与 6,250 个 A100 GPU 天相比),节省了近 30 万美元(26,000 美元与 320,000 美元相比),并减少了 90% 的 CO2 排放。此外,与更大的 SOTA 模型 RAPHAEL 相比,我们的训练成本仅为 1%。广泛的实验表明,PIXART-\alpha 在图像质量、艺术性和语义控制方面表现出色。我们希望 PIXART-\alpha$ 将为 AIGC 社区和初创公司提供新的见解,以加速构建他们自己的高质量但低成本的生成模型。
评论

模型太棒了
我制作了一个完整教程
还在 Automatic1111 SD Web UI、Kohya Trainer 脚本和 OneTrainer 上打开了功能添加请求
我们真的需要更多关于如何训练它的细节
我的教程和自动安装程序涵盖 Windows 和 RunPod / Linux
支持 8 位文本编码器加载和 CPU 卸载功能
这个模型绝对比 SDXL 更好
PIXART-α:首个 Midjourney 开源竞争对手 - 比 Stable Diffusion SDXL 更好 - 完整教程
PixArt-$\alpha$:以低训练成本彻底改变文本到图像合成!
链接 🔗:
👉 订阅: https://www.youtube.com/@Arxflix
👉 推特: https://x.com/arxflix
👉 LMNT (合作伙伴): https://lmnt.com/
作者:Arxflix
免责声明:💥 AI 生成的摘要:
本文介绍了 PIXART-α,这是一种基于 Transformer 的文本到图像扩散模型,与其他模型相比,它在显著降低训练成本和 CO2 排放的同时,实现了接近最先进的图像生成质量。
主要贡献包括:1) 将训练策略分解为像素依赖性学习、文本-图像对齐和美学增强阶段;2) 一种高效的 T2I Transformer 架构,结合了交叉注意力机制和优化的归一化;3) 使用带有 LLaVA 的自动标注管道来创建高信息密度的文本-图像数据集。
该模型基于 Diffusion Transformer (DiT),并添加了额外的交叉注意力模块来注入文本条件。
训练分为 3 个主要阶段:
阶段 1:使用在 ImageNet 上预训练的类条件模型学习像素分布。
阶段 2:使用 LLaVA 标注的高信息量字幕学习文本-图像对齐。
阶段 3:使用高质量数据集增强图像美学。
使用带有 LLaVA 的自动标注管道为 SAM 数据集创建密集、精确的字幕。
采用了共享归一化参数 (adaLN-single) 等效率优化措施。
训练使用 AdamW 优化器,学习率 2e-5,批量大小 64-178,在 64 个 V100 GPU 上进行。
将训练策略分解为不同的阶段(像素、对齐、美学)显著提高了效率。
使用自动标注的高信息量字幕对于快速文本-图像对齐学习至关重要。
与预训练的类条件模型权重兼容性提供了有用的初始化。
交叉注意力模块和共享归一化参数等架构优化提高了效率。
该模型以仅为其他模型 2% 的训练成本实现了接近最先进的质量。
PIXART-α 实现了与最先进模型相当的图像生成质量,同时将训练成本降低了 98%,CO2 排放降低了 90%。