⏶31

aMUSEd：开源MUSE复现

01月03日发表

04月12日由

AK 提交

作者:

Suraj Patil, William Berman, Robin Rombach,

Patrick von Platen

摘要

我们提出了 aMUSEd，这是一个开源的、轻量级的掩码图像模型（MIM），用于基于 MUSE 的文本到图像生成。aMUSEd 只有 MUSE 参数量的 10%，专注于快速图像生成。我们认为，与潜在扩散（文本到图像生成的主流方法）相比，MIM 仍未得到充分探索。与潜在扩散相比，MIM 需要更少的推理步骤，并且更易于解释。此外，MIM 可以通过单张图像进行微调，以学习额外的风格。我们希望通过展示 MIM 在大规模文本到图像生成方面的有效性，并发布可复现的训练代码，来鼓励进一步探索 MIM。我们还发布了两个模型的检查点，它们可以直接生成 256x256 和 512x512 分辨率的图像。

查看 arXiv 页面查看 PDF