WithAnyone:迈向可控且 ID 一致的图像生成

发表
taesiritaesiri 提交
作者: Hengyuan XuHengyuan Xu, Wei ChengWei Cheng, xingPeng Xing, Yixiao FangYixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang YuGang Yu, Xingjun Ma, Yu-Gang Jiang

摘要

AI 生成总结
一种基于扩散的模型通过使用大规模配对数据集和对比身份损失来平衡身份保真度和变化,解决了文本到图像生成中的复制粘贴伪影。
身份一致生成已成为文本到图像研究中的一个重要焦点,最近的模型在生成与参考身份对齐的图像方面取得了显著成功。然而,缺乏包含同一主体多张图像的大规模配对数据集,迫使大多数方法采用基于重建的训练。这种依赖性常常导致我们称之为“复制粘贴”的失败模式,即模型直接复制参考人脸,而不是在姿势、表情或光照的自然变化中保持身份。这种过度相似性会破坏可控性并限制生成的表现力。为了解决这些限制,我们(1)构建了一个大规模的配对数据集 MultiID-2M,该数据集专为多人场景而设计,为每个身份提供多样化的参考;(2)引入了一个基准,该基准量化了复制粘贴伪影以及身份保真度与变化性之间的权衡;(3)提出了一种新颖的训练范式,采用对比身份损失,该损失利用配对数据来平衡保真度与多样性。这些贡献最终形成了 WithAnyone,一个基于扩散的模型,该模型在保持高身份相似性的同时有效地减轻了复制粘贴问题。广泛的定性和定量实验表明,WithAnyone 显著减少了复制粘贴伪影,提高了姿势和表情的可控性,并保持了强大的感知质量。用户研究进一步证实,我们的方法在实现高身份保真度的同时,实现了富有表现力的可控生成。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

身份一致性生成已成为文本到图像研究的重要焦点,近期模型在生成与参考身份对齐的图像方面取得了显著成功。然而,缺乏包含同一人物多张图像的大规模配对数据集迫使大多数方法采用基于重构的训练。这种依赖性常常导致一种我们称之为“复制粘贴”的故障模式,即模型直接复制参考人脸,而不是在姿势、表情或光照的自然变化中保留身份。这种过度的相似性破坏了可控性并限制了生成的表现力。为了解决这些限制,我们 (1) 构建了一个大规模配对数据集 MultiID-2M,专为多人场景设计,为每个身份提供多样化的参考;(2) 引入了一个量化复制粘贴伪影以及身份保真度与变化之间权衡的基准;(3) 提出了一种新颖的训练范式,采用对比身份损失,利用配对数据来平衡保真度和多样性。这些贡献汇集成了 WithAnyone,一个基于扩散的模型,可有效缓解复制粘贴问题,同时保持高身份相似性。广泛的定性和定量实验表明,WithAnyone 显著减少了复制粘贴伪影,提高了姿势和表情的可控性,并保持了强大的感知质量。用户研究进一步证实,我们的方法在实现高身份保真度的同时,实现了富有表现力的可控生成。