PixArt-Σ:用于4K文本到图像生成的扩散Transformer的弱到强训练

03月07日发表
04月12日由 AKAK 提交
作者: ChenJunsong Chen, ChongjianGEChongjian Ge, xieenzeEnze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li

摘要

在本文中,我们介绍了 PixArt-\Sigma,一个扩散 Transformer 模型 (DiT),能够直接生成 4K 分辨率的图像。PixArt-\Sigma 代表了对其前身 PixArt-\alpha 的重大进步,提供了更高保真度和改进的与文本提示对齐的图像。PixArt-\Sigma 的一个关键特性是其训练效率。利用 PixArt-\alpha 的基础预训练,它通过结合更高质量的数据,从“较弱”的基线演变为“较强”的模型,我们将此过程称为“由弱到强的训练”。PixArt-\Sigma 的进步是双重的:(1)高质量训练数据:PixArt-\Sigma 结合了更高质量的图像数据,并配有更精确和详细的图像字幕。(2)高效的 token 压缩:我们在 DiT 框架内提出了一种新颖的注意力模块,该模块压缩了键和值,显着提高了效率并促进了超高分辨率图像的生成。由于这些改进,PixArt-\Sigma 以比现有文本到图像扩散模型(如 SDXL(2.6B 参数)和 SD Cascade(5.1B 参数))更小的模型尺寸(0.6B 参数)实现了卓越的图像质量和用户提示遵循能力。此外,PixArt-\Sigma 生成 4K 图像的能力支持创建高分辨率海报和壁纸,有效地提高了电影和游戏等行业高质量视觉内容的制作效率。