⏶9
探索大型语言模型与扩散 Transformer 模型在文本到图像合成中的深度融合
发表
由
Sayak Paul 提交

作者:
Bingda Tang,
Boyang Zheng,
Xichen Pan,
Sayak Paul,
Saining Xie

摘要
本文不描述一种新方法;相反,它对与文本到图像合成最新进展相关的一个重要但未被充分研究的设计空间进行了深入探索——具体来说,是大语言模型 (LLMs) 和扩散变换器 (DiTs) 在多模态生成中的深度融合。以前的研究主要关注整体系统性能,而不是与替代方法的详细比较,而且关键设计细节和训练方案常常未予披露。这些空白使得这种方法的真实潜力存在不确定性。为了弥补这些空白,我们对文本到图像生成进行了实证研究,与现有基线进行了受控比较,分析了重要的设计选择,并提供了一个清晰、可复现的大规模训练方案。我们希望这项工作能为未来多模态生成研究提供有意义的数据点和实用指南。
我们进行了一项全面的实证研究,探讨如何将大型语言模型 (LLM) 与扩散骨干网络融合以进行高分辨率图像合成。