过渡模型:重新思考生成学习目标

发表
Yiyuan ZhangYiyuan Zhang 提交
作者: wzdZidong Wang, Yiyuan Zhang, Xiaoyu Yue, Xiangyu Yue, Yangguang Li, Wanli Ouyang, Lei Bai

摘要

生成模型中存在一个根本性的困境:迭代扩散模型能达到卓越的保真度,但计算成本很高,而高效的少步数模型则受限于一个严格的质量上限。生成步数和输出质量之间的这种冲突源于仅关注无穷小动力学 (PF-ODE) 或直接端点预测的限制性训练目标。我们通过引入一个精确的、连续时间动力学方程来解决这一挑战,该方程在任何有限时间间隔内解析定义状态转换。这催生了一种新颖的生成范式,即过渡模型 (TiM),它适应任意步数的过渡,能够从单次跳跃到更多的步数进行精细化,无缝地遍历生成轨迹。尽管只有 8.65 亿个参数,TiM 仍取得了最先进的性能,在所有评估的步数下均超越了 SD3.5(80 亿参数)和 FLUX.1(120 亿参数)等领先模型。重要的是,与以往的少步数生成器不同,TiM 显示出随着采样预算的增加,质量会单调提高。此外,当采用我们的原生分辨率策略时,TiM 在高达 4096x4096 的分辨率下能够提供卓越的保真度。
查看 arXiv 页面查看 PDF

评论

Yiyuan ZhangYiyuan Zhang
论文提交者

生成模型中一个根本性的困境依然存在:迭代扩散模型能够实现出色的保真度,但计算成本很高,而高效的少步长替代方案则受到质量上限的严格限制。生成步数和输出质量之间的这种冲突源于严格的训练目标,这些目标要么仅侧重于无穷小动力学(PF-ODE),要么侧重于直接端点预测。我们通过引入一个精确的连续时间动力学方程来解决这一挑战,该方程在分析上定义了任何有限时间间隔内的状态转换。这导致了一种新颖的生成范式,即过渡模型(TiM),它可以适应任意步长的过渡,无缝地在从单次飞跃到更多步数的精细细化之间的生成轨迹之间移动。尽管仅有 8.65 亿个参数,TiM 还是取得了最先进的性能,在所有评估的步数下均超越了 SD3.5(80 亿参数)和 FLUX.1(120 亿参数)等领先模型。重要的是,与之前的少步长生成器不同,TiM 在采样预算增加时表现出单调的质量提升。此外,当采用我们的原生分辨率策略时,TiM 在高达 4096x4096 的分辨率下都能提供卓越的保真度。

wzdwzd
论文作者

转换模型 (TiM) 经过训练,以掌握任意状态到状态的转换。这种方法使 TiM 能够学习生成过程的整个解流形,将少步和多步模式统一在一个强大的模型中。