主体一致且姿态多样的文本到图像生成

发表
Ying TaiYing Tai 提交
作者: Zhanxin GaoZhanxin Gao, Beier ZhuBeier Zhu, Liang Yao, Jian Yang, Ying TaiYing Tai

摘要

主体一致性生成(SCG)旨在跨不同场景保持一致的主体身份,这仍然是文本到图像(T2I)模型的挑战。现有免训练SCG方法通常以牺牲布局和姿态多样性为代价实现一致性,这阻碍了富有表现力的视觉叙事。为了解决这一限制,我们提出了一种名为CoDi的主体一致性且姿态多样化的T2I框架,该框架能够实现具有多样化姿态和布局的一致主体生成。受扩散模型渐进性质的启发,即粗略结构在早期出现,精细细节在后期完善,CoDi采用了两阶段策略:身份传输(IT)和身份细化(IR)。IT在去噪的早期步骤中操作,使用最优传输以姿态感知的方式将身份特征传输到每个目标图像。这促进了主体一致性,同时保留了姿态多样性。IR应用于去噪的后期步骤,选择最显著的身份特征以进一步细化主体细节。在主体一致性、姿态多样性和提示保真度方面的大量定性和定量结果表明,CoDi在所有指标上都实现了更好的视觉感知和更强的性能。代码已在https://github.com/NJU-PCALab/CoDi提供。
查看 arXiv 页面查看 PDF

评论

Ying TaiYing Tai
论文作者
论文提交者

主体一致性生成(SCG)旨在在不同场景中保持一致的主体身份,这对于文本到图像(T2I)模型来说仍然是一个挑战。现有的免训练SCG方法通常以牺牲布局和姿态多样性为代价实现一致性,从而阻碍了富有表现力的视觉叙事。为了解决这一局限性,我们提出了一种主体一致且姿态多样的T2I框架,命名为CoDi,它能够实现主体的一致性生成,同时保持姿态和布局的多样性。受扩散渐进性质的启发,即粗略结构早期出现,精细细节后期完善,CoDi采用了两阶段策略:身份传输(IT)和身份细化(IR)。IT在早期的去噪步骤中操作,利用最优传输以姿态感知的方式将身份特征传输到每个目标图像。这促进了主体一致性,同时保留了姿态多样性。IR应用于后期的去噪步骤,选择最显著的身份特征以进一步细化主体细节。在主体一致性、姿态多样性和提示忠实度方面的大量定性和定量结果表明,CoDi在所有指标上都实现了更好的视觉感知和更强的性能。代码已提供:https://github.com/NJU-PCALab/CoDi。