⏶31
aMUSEd:开源MUSE复现
01月03日发表
04月12日由
AK 提交

作者:
Suraj Patil, William Berman, Robin Rombach,
Patrick von Platen


摘要
我们提出了 aMUSEd,这是一个开源的、轻量级的掩码图像模型(MIM),用于基于 MUSE 的文本到图像生成。aMUSEd 只有 MUSE 参数量的 10%,专注于快速图像生成。我们认为,与潜在扩散(文本到图像生成的主流方法)相比,MIM 仍未得到充分探索。与潜在扩散相比,MIM 需要更少的推理步骤,并且更易于解释。此外,MIM 可以通过单张图像进行微调,以学习额外的风格。我们希望通过展示 MIM 在大规模文本到图像生成方面的有效性,并发布可复现的训练代码,来鼓励进一步探索 MIM。我们还发布了两个模型的检查点,它们可以直接生成 256x256 和 512x512 分辨率的图像。
评论
认识 aMUSEd:文本到图像生成领域的轻量级革命
链接 🔗:
👉 订阅: https://www.youtube.com/@Arxflix
👉 Twitter: https://x.com/arxflix
👉 LMNT (合作伙伴): https://lmnt.com/
作者:Arxflix
模型:https://hf.co/amused