基于自回归模型的个性化文本到图像生成

发表
Kaiyue SunKaiyue Sun 提交
作者: Kaiyue SunKaiyue Sun, Xian LiuXian Liu, Yao Teng, Xihui LiuXihui Liu

摘要

个性化图像合成已成为文本到图像生成中的一个关键应用,能够创建在不同背景下包含特定主体的图像。尽管扩散模型在该领域占据主导地位,但自回归模型凭借其统一的文本和图像建模架构,在个性化图像生成方面的潜力仍未被充分挖掘。本文研究了优化自回归模型用于个性化图像合成的可能性,利用其固有的多模态能力来执行此任务。我们提出了一种两阶段训练策略,结合了文本嵌入的优化和Transformer层的微调。我们在自回归模型上进行的实验表明,该方法在主体保真度和遵循提示方面可与领先的基于扩散的个性化方法相媲美。实验结果突出了自回归模型在个性化图像生成方面的有效性,为该领域的未来研究提供了新方向。
查看 arXiv 页面查看 PDF

评论

Kaiyue SunKaiyue Sun
论文作者
论文提交者

本文探讨了优化自回归模型在个性化图像合成方面的潜力,利用其固有的多模态能力来执行此任务。我们提出了一种两阶段训练策略,结合了文本嵌入优化和 Transformer 层微调。我们在自回归模型上进行的实验表明,该方法在主体保真度和提示遵循方面达到了与领先的基于扩散的个性化方法相当的水平。结果突显了自回归模型在个性化图像生成中的有效性,为该领域的未来研究提供了新的方向。

Github: https://github.com/KaiyueSun98/T2I-Personalization-with-AR

截屏2025-04-23 上午2.05.43.png

Kaiyue SunKaiyue Sun
论文作者
论文提交者

本文探讨了优化自回归模型在个性化图像合成方面的潜力,利用其固有的多模态能力来执行此任务。我们提出了一种两阶段训练策略,结合了文本嵌入优化和 Transformer 层微调。我们在自回归模型上进行的实验表明,该方法在主体保真度和提示遵循方面达到了与领先的基于扩散的个性化方法相当的水平。结果突显了自回归模型在个性化图像生成中的有效性,为该领域的未来研究提供了新的方向。

Github: https://github.com/KaiyueSun98/T2I-Personalization-with-AR

Yj_WRqu9KbJitKeEoRNDu.png