视频生成的运动归因

发表
taesiritaesiri 提交
作者: Xindi WuXindi Wu, Despoina PaschalidouDespoina Paschalidou, Jun Gao, AntonioAntonio Torralba, Laura Leal-Taixé, Olga Russakovsky, Sanja Fidler, Jonathan LorraineJonathan Lorraine

摘要

AI 生成总结
Motive 是一个基于梯度的归因框架,通过动作加权损失掩码,识别出对文本生成视频模型中动作改进具有影响力的视频片段。
尽管视频生成模型取得了飞速进展,但数据在影响运动方面的作用仍不为人所知。我们提出了 Motive(视频生成的运动归因),这是一个以运动为中心的、基于梯度的分布式归因框架,可扩展到现代大型高质量视频数据集和模型。我们利用该框架研究哪些微调片段会改善或降低时间动态。Motive 通过运动加权损失掩码将时间动态从静态外观中分离出来,从而实现了高效且可扩展的特定运动影响计算。在文本到视频模型上,Motive 能够识别出强烈影响运动的片段,并指导数据策展,从而提高时间一致性和物理合理性。利用 Motive 筛选的高影响力数据,我们的方法在 VBench 上的运动平滑度和动态程度均有提升,与预训练基座模型相比,获得了 74.1% 的人类偏好胜率。据我们所知,这是第一个对视频生成模型中的运动而非视觉外观进行归因,并将其用于微调数据策展的框架。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

摘要:我们提出了 MOTIVE,这是一个可扩展的、以运动为中心的视频生成数据归因框架,用于识别哪些训练剪辑会改善或降低运动动力学质量,从而实现数据筛选及更多功能。