UMO:通过匹配奖励来扩展多身份一致性以实现图像定制

发表
ShaojinWuShaojinWu 提交
作者: Yufeng ChengYufeng Cheng, wuwenxuWenxu Wu, ShaojinWuShaojin Wu, Mengqi Huang, Fei Ding, Qian He

摘要

AI 生成总结
UMO 是一种统一的多身份优化框架,它利用扩散模型上的强化学习,增强了多参考图像定制中的身份一致性并减少了混淆。
图像定制的最新进展由于更强的定制能力而展现出广泛的应用前景。然而,由于我们人类对人脸更敏感,在保持一致身份的同时避免与多参考图像混淆身份仍然是一个重大挑战,这限制了定制模型在身份方面的可扩展性。为了解决这个问题,我们提出了 UMO,一个统一的多身份优化框架,旨在保持高保真度的身份保存并减轻身份混淆的可扩展性。通过“多对多匹配”范式,UMO 将多身份生成重新表述为一个全局分配优化问题,并通过在扩散模型上进行强化学习来广泛释放现有图像定制方法的多身份一致性。为了促进 UMO 的训练,我们开发了一个具有多参考图像的可扩展定制数据集,该数据集同时包含合成和真实部分。此外,我们提出了一种新的度量标准来衡量身份混淆。广泛的实验表明,UMO 不仅显著提高了身份一致性,还减少了几种图像定制方法上的身份混淆,在身份保持方面设定了开源方法的新最先进水平。代码和模型:https://github.com/bytedance/UMO
查看 arXiv 页面查看 PDF

评论

ShaojinWuShaojinWu
论文作者
论文提交者

我们宣布 UMO,一个统一的多身份优化框架,也是 UXO 系列 的最新成员。UMO 可以自由地将一对多身份与任何场景中的任何主体相结合,提供高主体/身份一致性的输出。一如我们过往的惯例,我们将开源完整项目,包括推理脚本、模型权重和训练代码,以推进研究并赋能开源社区。

🚄 代码链接:https://github.com/bytedance/UMO 🚀 项目主页:https://bytedance.github.io/UMO/ 🌟 huggingface space1:https://huggingface.co/spaces/bytedance-research/UMO_UNO 🌟 huggingface space2:https://huggingface.co/spaces/bytedance-research/UMO_OmniGen2 👀 模型检查点:https://huggingface.co/bytedance-research/UMO