倾听内在声音:通过中间特征反馈对齐 ControlNet 训练

发表
Aibek AlanovAibek Alanov 提交
作者: Nina Konovalova, Maxim Nikolaev, Andrey Kuznetsov, Aibek Alanov

摘要

尽管文本到图像扩散模型取得了显著进展,但实现对生成输出的精确空间控制仍然充满挑战。ControlNet 通过引入一个辅助条件模块解决了这一问题,而 ControlNet++ 则通过仅应用于最终去噪步骤的循环一致性损失进一步提升对齐。然而,这种方法忽略了中间生成阶段,限制了其有效性。我们提出了 InnerControl,这是一种在所有扩散步骤中强制执行空间一致性的训练策略。我们的方法训练轻量级卷积探针,在每个去噪步骤中从中间 UNet 特征重建输入控制信号(例如,边缘、深度)。这些探针即使从高度噪声的潜在表示中也能高效提取信号,从而为训练提供伪真实控制。通过在整个扩散过程中最小化预测条件和目标条件之间的差异,我们的对齐损失提高了控制保真度和生成质量。结合诸如 ControlNet++ 等现有技术,InnerControl 在各种条件化方法(例如,边缘、深度)上都取得了最先进的性能。
查看 arXiv 页面查看 PDF

评论

Aibek AlanovAibek Alanov
论文提交者

我们提出了 InnerControl,它通过轻量级卷积探针从中间特征重建控制信号,在所有去噪步骤中强制保持一致性,从而改善了文本到图像扩散模型的空间控制,与 ControlNet 和 ControlNet++ 等现有方法结合使用时表现更佳。代码可在 GitHub 上获取。