⏶11
基于扩散 Transformer 的全局与局部专家混合模型,实现可控人脸生成
发表
由
XavierJiezou 提交
作者:
Xuechao Zou, Shun Zhang, Xing Fu, Yue Li, Kai Li, Yushe Cao, Congyan Lang, Pin Tao, Junliang Xing
摘要
可控人脸生成由于语义可控性和照片逼真度之间所需的精细平衡,对生成模型提出了关键挑战。尽管现有方法在将语义控制与生成流程解耦方面存在困难,但我们通过专家专业化的视角重新审视了扩散Transformer (DiTs) 的架构潜力。本文介绍了Face-MoGLE,一个新颖的框架,其特点是:(1) 通过掩码条件空间分解实现的语义解耦潜在建模,能够实现精确的属性操纵;(2) 混合的全局和局部专家,捕捉整体结构和区域级语义,以实现精细的可控性;(3) 动态门控网络产生随扩散步骤和空间位置演变的时间依赖性系数。Face-MoGLE为高质量、可控的人脸生成提供了一个强大而灵活的解决方案,在生成模型和安全应用方面具有巨大潜力。大量实验证明了其在多模态和单模态人脸生成设置中的有效性以及其强大的零样本泛化能力。项目页面可在 https://github.com/XavierJiezou/Face-MoGLE 找到。



Face-MoGLE:用于可控人脸生成的全局与局部专家混合扩散 Transformer
专注于生成模型在平衡语义可控性与真实性方面的挑战。
🧠 研究动机
传统方法通常难以平衡全局一致性与局部细节,或者将语义与生成过程过度耦合,导致灵活性不足和泛化能力有限。
✨ 核心贡献
提出一种语义解耦的潜在建模方法,通过掩码条件分解实现精确的区域操纵和强大的泛化能力;
设计了全局-局部专家混合模块(MoGLE),该模块同时捕捉整体结构并恢复细粒度的局部语义细节;
引入了一个时空动态门控网络,该网络根据扩散步数和空间位置自适应地融合表示。
📊 实验结果
在 FID、KID 和条件一致性指标上,Face-MoGLE 显著优于 PixelFace+ 和 DDGI 等主流模型。它还展现了强大的零样本泛化能力。生成的面部甚至能够骗过最先进的面部伪造检测系统,凸显了其在安全方面潜在的影响。下一步,我们计划发布专门的伪造检测模型和评估工具,旨在推进生成式人工智能的发展,同时为社会提供可靠的保障。
📦 完全开源
我们已发布论文、代码、模型权重和相关数据集。热烈欢迎社区使用和反馈!
◼︎ 论文:https://arxiv.org/pdf/2509.00428
◼︎ 代码:https://github.com/XavierJiezou/Face-MoGLE
◼︎ 模型:https://huggingface.co/XavierJiezou/face-mogle-models
◼︎ 数据:https://huggingface.co/datasets/XavierJiezou/face-mogle-datasets