REPA-E:解锁VAE以实现使用潜在扩散Transformer的端到端微调

发表
Niels RoggeNiels Rogge 提交
作者: Xingjian LengXingjian Leng, Jaskirat SinghJaskirat Singh, Yunzhong HouYunzhong Hou, XingZhenchang Xing, Saining XieSaining Xie, Liang ZhengLiang Zheng

摘要

在本文中,我们探讨一个基本问题:“我们能否以端到端的方式将潜在扩散模型与变分自编码器 (VAE) 分词器一起训练?” 传统的深度学习智慧表明,在可能的情况下,端到端训练通常更可取。然而,对于潜在扩散 Transformer,观察到使用标准扩散损失对 VAE 和扩散模型进行端到端训练是无效的,甚至会导致最终性能下降。我们表明,虽然扩散损失无效,但可以通过表示对齐 (REPA) 损失来解锁端到端训练——允许在训练过程中联合调整 VAE 和扩散模型。尽管其简单性,但所提出的训练方案 (REPA-E) 显示出卓越的性能;分别比 REPA 和原始训练方案加速扩散模型训练超过 17 倍和 45 倍。有趣的是,我们观察到使用 REPA-E 进行端到端调整也改进了 VAE 本身;从而改善了潜在空间结构和下游生成性能。在最终性能方面,我们的方法树立了新的最先进水平;在使用和不使用 ImageNet 256 x 256 上的无分类器引导的情况下,实现了 1.26 和 1.83 的 FID。代码可在 https://end2end-diffusion.github.io 获取。
查看 arXiv 页面查看 PDF

评论

Niels RoggeNiels Rogge
论文提交者

代码: https://github.com/End2End-Diffusion/REPA-E