VideoREPA:通过与基础模型的关系对齐学习视频生成物理

发表
Haoyu SunHaoyu Sun 提交
作者: Xiangdong ZhangXiangdong Zhang, Jiaqi Liao, Shaofeng Zhang, Fanqing Meng, Xiangpeng Wan, Junchi Yan, Yu Cheng

摘要

文本到视频 (T2V) 扩散模型的最新进展使得高保真和逼真的视频合成成为可能。然而,当前的 T2V 模型通常难以生成物理上合理的内容,因为它们固有的物理理解能力有限。我们发现,虽然 T2V 模型中的表示具有一定的物理理解能力,但它们明显落后于最近的视频自监督学习方法。为此,我们提出了一种名为 VideoREPA 的新颖框架,它通过对齐 token 级关系,将视频理解基础模型中的物理理解能力蒸馏到 T2V 模型中。这弥合了物理理解差距,并实现了更物理合理的内容生成。具体而言,我们引入了 Token 关系蒸馏 (TRD) 损失,利用时空对齐提供软指导,适用于微调强大的预训练 T2V 模型,这是与先前的表示对齐 (REPA) 方法的关键区别。据我们所知,VideoREPA 是第一个为微调 T2V 模型而设计并专门用于注入物理知识的 REPA 方法。实证评估表明,VideoREPA 大幅增强了基线方法 CogVideoX 的物理常识,在相关基准上取得了显著改进,并展示了生成符合直觉物理的视频的强大能力。更多视频结果可在 https://videorepa.github.io/ 查看。
查看 arXiv 页面查看 PDF

评论

Haoyu SunHaoyu Sun
论文提交者

项目页面:https://videorepa.github.io/

Github:https://github.com/aHapBean/VideoREPA