USO:通过解耦和奖励学习实现统一风格和主题驱动的生成

发表
ShaojinWuShaojinWu 提交
作者: ShaojinWuShaojin Wu, Mengqi Huang, Yufeng ChengYufeng Cheng, wuwenxuWenxu Wu, Jiahe Tian, Yiming Luo, Fei Ding, Qian He

摘要

现有文献通常将风格驱动和主题驱动的生成视为两个独立的任务:前者优先考虑风格相似性,而后者则坚持主题一致性,从而导致明显的对立。我们认为,这两个目标可以在一个单一的框架下统一,因为它们最终都涉及内容和风格的解耦与重组,这是风格驱动研究中一个长期存在的主题。为此,我们提出了USO,一个统一风格-主题优化的定制模型。首先,我们构建了一个大型的三元组数据集,包含内容图像、风格图像以及它们对应的风格化内容图像。其次,我们引入了一种解耦学习方案,通过两种互补的目标——风格对齐训练和内容-风格解耦训练——同时对齐风格特征并将内容与风格解耦。第三,我们整合了一个名为SRL的风格奖励学习范式,以进一步提升模型的性能。最后,我们发布了USO-Bench,这是第一个在多个指标上联合评估风格相似性和主题保真度的基准。大量实验表明,USO在主题一致性和风格相似性这两个维度上都取得了开源模型中的最先进性能。代码和模型:https://github.com/bytedance/USO
查看 arXiv 页面查看 PDF

评论

ShaojinWuShaojinWu
论文作者
论文提交者

🔥🔥 我们推出了 USO,一个开源的统一定制模型,支持在任何场景下自由组合任何主体和任何风格,输出具有高主体/身份一致性和强风格保真度的结果,同时确保自然、不失真的肖像。

🚄 代码链接: https://github.com/bytedance/USO

🚀 项目页面: https://bytedance.github.io/USO/

🌟 Huggingface Space: https://huggingface.co/spaces/bytedance-research/USO

👀 模型检查点: https://huggingface.co/bytedance-research/USO

teaser.webp

开源统一定制模型