从反思到完善:通过反射调优扩展文本到图像扩散模型的推理时优化

发表
Sayak PaulSayak Paul 提交
作者: Le Zhuo, Liangbing Zhao, Sayak PaulSayak Paul, Yue Liao, Renrui Zhang, Yi Xin, Peng GaoPeng Gao, Mohamed ElhoseinyMohamed Elhoseiny, Hongsheng LIHongsheng Li

摘要

最近的文本到图像扩散模型通过对训练数据和模型参数的大规模扩展实现了令人印象深刻的视觉质量,但它们在处理复杂场景和细粒度细节时常常遇到困难。受大型语言模型中涌现的自我反思能力的启发,我们提出了 ReflectionFlow,一个在推理时 enabling 扩散模型迭代反思和改进其输出的框架。ReflectionFlow 引入了三个互补的推理时缩放轴:(1)噪声水平缩放以优化潜在变量初始化;(2)提示级别缩放以实现精确的语义指导;以及最显著的(3)反思级别缩放,它明确提供可操作的反思,以迭代评估和修正之前的生成结果。为了促进反思级别缩放,我们构建了 GenRef,一个包含 100 万个三元组的大规模数据集,每个三元组包含一个反思、一张有缺陷的图像和一张经过改进的图像。利用该数据集,我们在最先进的扩散 Transformer FLUX.1-dev 上高效地执行反思微调,通过在统一框架内联合建模多模态输入。实验结果表明,ReflectionFlow 显著优于朴素的噪声水平缩放方法,为在具有挑战性的任务上实现更高质量的图像合成提供了一种可扩展且计算高效的解决方案。
查看 arXiv 页面查看 PDF
从反思到完善:通过反射调优扩展文本到图像扩散模型的推理时优化

评论

Sayak PaulSayak Paul
论文作者
论文提交者

近期的文本到图像扩散模型通过大规模扩展训练数据和模型参数,实现了令人印象深刻的视觉质量,然而它们常常难以处理复杂场景和细粒度细节。受大语言模型中涌现的自我反思能力启发,我们提出了 ReflectionFlow,这是一个推理时框架,它使扩散模型能够迭代地反思和优化其输出。ReflectionFlow 引入了三个互补的推理时缩放维度:(1)噪声水平缩放,用于优化潜在表示的初始化;(2)提示水平缩放,用于精准的语义引导;以及最值得注意的是(3)反思水平缩放,它显式地提供可执行的反思/反馈,以迭代地评估和纠正先前的生成结果。为了促进反思水平缩放,我们构建了 GenRef,这是一个大规模数据集,包含100万个三元组,每个三元组包含一个反思、一张有缺陷的图像和一张改进后的图像。利用这个数据集,我们在最先进的扩散 transformer 模型 FLUX.1-dev 上高效地进行了反思调优,方法是在一个统一的框架内联合建模多模态输入。实验结果表明,ReflectionFlow 显著优于天真的噪声水平缩放方法,为在具有挑战性的任务上实现更高质量的图像合成提供了一个可扩展且计算高效的解决方案。