⏶16
Wan-S2V:音频驱动的电影视频生成
发表
由
taesiri 提交

作者: Xin Gao, Li Hu, Siqi Hu, Mingyang Huang, Chaonan Ji, Dechao Meng, Jinwei Qi, Penchong Qiao, Zhen Shen, Yafei Song, Ke Sun, Linrui Tian, Guangyuan Wang, Qi Wang, Zhongjian Wang, Jiayu Xiao, Sheng Xu, Bang Zhang, Peng Zhang, Xindi Zhang, Zhe Zhang, Jingren Zhou, Lian Zhuo
摘要
当前最先进 (SOTA) 的音频驱动角色动画方法在主要涉及语音和唱歌的场景中表现出有希望的性能。然而,在更复杂的电影和电视制作中,它们通常表现不佳,因为这些制作需要细致的角色交互、逼真的身体动作和动态的相机工作等复杂元素。为了应对实现电影级角色动画这一长期挑战,我们提出了一种基于 Wan 的音频驱动模型,我们称之为 Wan-S2V。与现有方法相比,我们的模型在电影环境中实现了显著增强的表现力和保真度。我们进行了广泛的实验,将我们的方法与 Hunyuan-Avatar 和 Omnihuman 等尖端模型进行了基准测试。实验结果持续表明,我们的方法显著优于这些现有解决方案。此外,我们通过将其应用于长格式视频生成和精确视频唇语同步编辑来探索我们方法的多功能性。
> 当前最先进(SOTA)的音频驱动角色动画方法在主要涉及语音和歌唱的场景中表现出色。然而,在更复杂的电影和电视制作中,它们往往表现不佳,而这些制作需要细致的角色互动、逼真的身体动作和动态的摄像机工作等复杂元素。为了解决实现电影级角色动画这一长期存在的挑战,我们提出了一种我们称之为 Wan-S2V 的音频驱动模型,该模型基于 Wan 构建。与现有方法相比,我们的模型在电影场景中实现了显着增强的表现力和保真度。我们进行了广泛的实验,将我们的方法与 Hunyuan-Avatar 和 Omnihuman 等尖端模型进行了基准测试。实验结果一致表明,我们的方法明显优于这些现有解决方案。此外,我们还通过其在长视频生成和精确视频唇语同步编辑中的应用,探索了我们方法的多功能性。