⏶27
MIDAS:通过实时自回归视频生成实现多模态交互式数字人合成
发表
由
Zhang Wenyuan 提交
作者:
Ming Chen,
Liyuan Cui, Wenyuan Zhang, Haoxian Zhang, Yan Zhou, Xiaohan Li, Xiaoqiang Liu, Pengfei Wan

摘要
近期,交互式数字人视频生成引起了广泛关注并取得了显著进展。然而,构建一个能够实时与多样化输入信号交互的实用系统,对现有方法来说仍然是一个挑战,它们常常面临高延迟、高计算成本和有限的可控性等问题。在本研究中,我们引入了一个自回归视频生成框架,该框架能够以流式方式实现交互式多模态控制和低延迟外插。通过对标准大语言模型(LLM)进行最小程度的修改,我们的框架可以接受包括音频、姿态和文本在内的多模态条件编码,并输出在空间和语义上连贯的表示,以指导扩散头的去噪过程。为了支持这一点,我们构建了一个大规模对话数据集,包含来自多个来源的约20,000小时的对话,提供了丰富的对话场景用于训练。我们进一步引入了一个深度压缩自编码器,其压缩率高达64倍,有效减轻了自回归模型的长序列推理负担。在双向对话、多语言人物合成和交互式世界模型上的大量实验突出了我们方法在低延迟、高效率和细粒度多模态可控性方面的优势。
近期,交互式数字人视频生成受到了广泛关注并取得了显著进展。然而,构建一个能够实时与多样化输入信号交互的实用系统,对于现有方法来说仍然充满挑战,它们常常面临高延迟、高计算成本和有限可控性等问题。在本工作中,我们引入了一个自回归视频生成框架,该框架能够以流式方式实现交互式多模态控制和低延迟外插。通过对标准的语言大模型(LLM)进行最小程度的修改,我们的框架可以接受包括音频、姿态和文本在内的多模态条件编码,并输出在空间和语义上连贯的表示,以指导扩散头的去噪过程。为了支持这一点,我们从多个来源构建了一个包含约20,000小时的大规模对话数据集,提供了丰富的对话场景用于训练。我们还引入了一个深度压缩自编码器,其压缩率高达64倍,有效缓解了自回归模型的长序列推理负担。在双向对话、多语种人声合成和交互式世界模型上的广泛实验,突显了我们方法在低延迟、高效率和细粒度多模态可控性方面的优势。项目页面:https://chenmingthu.github.io/milm/