⏶63
OmniConsistency:从配对风格化数据中学习与风格无关的一致性
发表
由
Yiren Song 提交
作者:
Yiren Song, Cheng Liu,
Mike Zheng Shou

摘要
扩散模型显著推动了图像风格化技术的进步,但仍存在两个核心挑战:(1) 在复杂场景中保持风格化的一致性,尤其是在身份、构图和细节方面;(2) 在使用风格 LoRA 的图像到图像管线中,防止风格退化。GPT-4o 出色的风格化一致性凸显了开源方法与专有模型之间的性能差距。为了弥合这一差距,我们提出了 OmniConsistency,一个利用大规模扩散 Transformer (DiTs) 的通用一致性插件。OmniConsistency 的贡献包括:(1) 一个基于对齐图像对训练的上下文一致性学习框架,以实现稳健的泛化;(2) 一个两阶段渐进学习策略,将风格学习与一致性保持解耦,以减轻风格退化;(3) 一个完全即插即用的设计,兼容 Flux 框架下的任意风格 LoRA。大量实验表明,OmniConsistency 显著增强了视觉连贯性和美学质量,达到了与商业最先进模型 GPT-4o 媲美的性能。
🚀 开源突破!
我们仅使用 2,600 对数据 + 500 GPU 小时,就重现了 GPT-4o 级别的风格一致性!
隆重推出 OmniConsistency:
⚡ 超强的风格 + 内容一致性
⚡ 即插即用,适用于任何 Flux LoRA
⚡ 轻量级,媲美顶级商业 API
演示 👉 https://huggingface.co/spaces/yiren98/OmniConsistency
代码 👉 https://github.com/showlab/OmniConsistency