⏶25
StableAvatar:无限长音频驱动的虚拟形象视频生成
发表
由
Shuyuan Tu 提交

作者:
Shuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Chong Luo, Zuxuan Wu, Yu-Gang Jiang

摘要
当前用于音频驱动虚拟人视频生成的扩散模型难以合成具有自然音频同步和身份一致性的长视频。本文介绍了 StableAvatar,这是第一个端到端视频扩散Transformer,无需后期处理即可合成无限长度的高质量视频。StableAvatar 以参考图像和音频为条件,集成了量身定制的训练和推理模块,以实现无限长度视频生成。我们观察到,阻止现有模型生成长视频的主要原因在于它们的音频建模。它们通常依赖于第三方现成的提取器来获取音频嵌入,然后通过交叉注意力直接注入到扩散模型中。由于当前的扩散骨干网络缺乏任何音频相关先验,这种方法会导致视频片段之间的严重潜在分布误差累积,导致后续片段的潜在分布逐渐偏离最佳分布。为了解决这个问题,StableAvatar 引入了一种新颖的“时间步感知音频适配器”,通过时间步感知调制来防止误差累积。在推理过程中,我们提出了一种新颖的“音频原生引导机制”,通过利用扩散模型自身不断演变的联合音频-潜在预测作为动态引导信号,进一步增强音频同步。为了增强无限长度视频的平滑性,我们引入了一种“动态加权滑动窗口策略”,该策略随时间融合潜在信息。基准测试实验表明了 StableAvatar 在定性和定量方面的有效性。

目前用于音频驱动虚拟形象视频生成的扩散模型在合成具有自然音频同步和身份一致性的长视频方面存在困难。本文提出了 StableAvatar,这是第一个端到端视频扩散转换器,无需后期处理即可合成无限长度的高质量视频。StableAvatar 以参考图像和音频为条件,集成了量身定制的训练和推理模块,以实现无限长度的视频生成。我们观察到,现有模型无法生成长视频的主要原因在于它们的音频建模。它们通常依赖第三方现成的提取器来获取音频嵌入,然后通过交叉注意力直接注入到扩散模型中。由于当前的扩散骨干缺乏任何音频相关先验,这种方法会导致视频片段之间的严重潜在分布误差累积,导致后续片段的潜在分布逐渐偏离最佳分布。为了解决这个问题,StableAvatar 引入了一种新颖的步长感知音频适配器,通过步长感知调制来防止误差累积。在推理过程中,我们提出了一种新颖的音频原生引导机制,通过利用扩散模型自身演进的联合音频-潜在预测作为动态引导信号,进一步增强音频同步。为了增强无限长度视频的平滑性,我们引入了一种动态加权滑动窗口策略,该策略随时间融合潜在空间。基准实验定性和定量地证明了 StableAvatar 的有效性。
https://cdn-uploads.huggingface.co/production/uploads/66da6972eae491c64243e8f3/0l06yCa2sFChPjO38B0In.mp4
https://cdn-uploads.huggingface.co/production/uploads/66da6972eae491c64243e8f3/v3_YIzMs8oadTUnsh6_-C.mp4
https://cdn-uploads.huggingface.co/production/uploads/66da6972eae491c64243e8f3/Cl-jJF2_AuroQDQDZF0QivN.mp4