基于生成先验的可控人体关键帧插值

发表
ZUJIN GUOZUJIN GUO 提交
作者: ZUJIN GUOZujin Guo, Size Wu, Zhongang Cai, Wei Li, Chen Change Loy

摘要

现有的插值方法利用预训练的视频扩散先验来生成稀疏采样的关键帧之间的中间帧。在缺乏3D几何指导的情况下,这些方法难以对复杂、关节化的人体运动产生合理的结果,并且对合成动力学的控制有限。在本文中,我们引入了PoseFuse3D关键帧插值器(PoseFuse3D-KI),这是一个将3D人体指导信号集成到扩散过程中以实现可控的人体中心关键帧插值(CHKI)的新颖框架。为了为插值提供丰富的空间和结构线索,我们的PoseFuse3D(一个受3D信息启发的控制模型)具有一个新颖的SMPL-X编码器,它将3D几何和形状转换为2D潜在条件空间,以及一个将这些3D线索与2D姿态嵌入集成的融合网络。为了进行评估,我们构建了CHKI-Video,这是一个标注了2D姿态和3D SMPL-X参数的新数据集。我们展示了PoseFuse3D-KI在CHKI-Video上始终优于最先进的基线方法,在PSNR方面取得了9%的提升,LPIPS方面降低了38%。全面的消融实验表明,我们的PoseFuse3D模型提高了插值保真度。
查看 arXiv 页面查看 PDF

评论

ZUJIN GUOZUJIN GUO
论文作者
论文提交者

我们引入了PoseFuse3D关键帧插值器(PoseFuse3D-KI),这是一个新颖的框架,它将3D人体引导信号集成到扩散过程中,以实现可控的人体中心关键帧插值(CHKI)。项目页面:https://gseancdat.github.io/projects/PoseFuse3D_KI