DiTaiListener:使用扩散的可控高保真监听者视频生成

04月05日发表
04月10日由 Di ChangDi Chang 提交
作者: Maksim SiniukovMaksim Siniukov, Di ChangDi Chang, Minh TranMinh Tran, Hongkun GongHongkun Gong, Ashutosh ChaubeyAshutosh Chaubey, Mohammad SoleymaniMohammad Soleymani

摘要

为扩展的交互生成自然且细致的听众动作仍然是一个开放性问题。现有方法通常依赖于用于面部行为生成的低维运动代码,然后进行照片级真实感渲染,这限制了视觉保真度和表现力。为了解决这些挑战,我们推出了 DiTaiListener,它由具有多模态条件的视频扩散模型提供支持。我们的方法首先生成听众响应的短片段,这些片段以说话者的语音和面部动作为条件,使用 DiTaiListener-Gen。然后,它通过 DiTaiListener-Edit 细化过渡帧,以实现无缝过渡。具体来说,DiTaiListener-Gen 调整了扩散Transformer (DiT) 以用于听众头部肖像生成任务,通过引入因果时间多模态适配器 (CTM-Adapter) 来处理说话者的听觉和视觉线索。CTM-Adapter 以因果方式将说话者的输入集成到视频生成过程中,以确保时间上连贯的听众响应。对于长视频生成,我们引入了 DiTaiListener-Edit,这是一种过渡细化视频到视频扩散模型。该模型将视频片段融合为平滑且连续的视频,确保在合并 DiTaiListener-Gen 生成的短视频片段时面部表情和图像质量的时间一致性。在定量方面,DiTaiListener 在基准数据集上实现了最先进的性能,在照片真实感(RealTalk 上的 FID 提高了 +73.8%)和运动表示(VICO 上的 FD 指标提高了 +6.1%)空间中均表现出色。用户研究证实了 DiTaiListener 的卓越性能,该模型在反馈、多样性和平滑度方面明显更受欢迎,明显优于竞争对手。
查看 arXiv 页面查看 PDF

评论

Di ChangDi Chang
论文作者
论文提交者

http://havent-invented.github.io/DiTaiListener