⏶4
用于微调视频扩散模型的跨帧表征对齐
发表
由
Sungwon Hwang 提交
作者: Sungwon Hwang, Hyojin Jang, Kinam Kim, Minho Park, Jaegul choo
摘要
在用户层面微调视频扩散模型(VDM),以生成反映训练数据特定属性的视频,带来了显著挑战,尽管其具有实际重要性,但仍未得到充分探索。同时,最近的工作,如表征对齐(Representation Alignment, REPA),已显示出通过将其内部隐藏状态与外部预训练视觉特征对齐或同化,来改善基于DiT的图像扩散模型的收敛性和质量的潜力,这表明其在VDM微调方面的可能性。在这项工作中,我们首先提出了REPA在VDM上的直接适配,并通过经验证明,虽然它对收敛有效,但在保持跨帧语义一致性方面并非最优。为了解决这一局限性,我们引入了跨帧表征对齐(Cross-frame Representation Alignment, CREPA),这是一种新颖的正则化技术,用于将帧的隐藏状态与来自相邻帧的外部特征对齐。对包括CogVideoX-5B和混元视频在内的大规模VDM进行的经验评估表明,当使用LoRA等参数高效方法进行微调时,CREPA能同时提高视觉保真度和跨帧语义连贯性。我们进一步在具有不同属性的多种数据集上验证了CREPA,证实了其广泛适用性。项目主页:https://crepavideo.github.io
开始讨论论文