Tora2:用于多实体视频生成的运动和外观定制扩散Transformer

发表
YSHYSH 提交
作者: Zhenghao Zhang, Junchao Liao, Xiangyu Meng, Long Qin, Weizhi Wang

摘要

近年来,用于运动引导视频生成的扩散 Transformer 模型(如 Tora)已取得显著进展。在本文中,我们提出了 Tora2,它是 Tora 的增强版本,引入了多项设计改进,以扩展其在外观和运动定制方面的能力。具体来说,我们引入了一个解耦的个性化提取器,它能为多个开放集实体生成全面的个性化嵌入,与以往方法相比,能更好地保留细粒度视觉细节。在此基础上,我们设计了一种门控自注意力机制,用于整合每个实体的轨迹、文本描述和视觉信息。这项创新显著减少了训练过程中多模态条件下的错位。此外,我们引入了一种对比损失,通过运动和个性化嵌入之间的显式映射,共同优化轨迹动态和实体一致性。据我们所知,Tora2 是首个实现视频生成中多实体外观和运动同时定制的方法。实验结果表明,Tora2 与最先进的定制方法相比,取得了具有竞争力的性能,同时提供了先进的运动控制能力,这标志着多条件视频生成领域的关键进展。项目页面:https://github.com/alibaba/Tora
查看 arXiv 页面查看 PDF

评论