JAM-Flow:使用流匹配的联合音频-动作合成

发表
Joonghyuk ShinJoonghyuk Shin 提交
作者: Mingi Kwon, Joonghyuk ShinJoonghyuk Shin, Jaeseok Jung, Jaesik Park, Youngjung Uh

摘要

在生成建模中,面部运动和语音之间的内在联系常常被忽视,其中说话人头部合成和文本到语音 (TTS) 通常被作为单独的任务来处理。 本文介绍了一种统一的框架 JAM-Flow,可以同时合成和调节 面部运动和语音。 我们的方法利用流匹配和一种新的多模态扩散转换器 (MM-DiT) 架构,集成了专门的 Motion-DiT 和 Audio-DiT 模块。 这些模块通过选择性的联合注意力层耦合,并包含关键的架构选择,例如时间对齐的 位置嵌入和局部联合注意力掩码,以实现有效的跨模态交互,同时保持模态特定的优势。 通过一种修复式目标进行训练,JAM-Flow 支持各种各样的 条件输入 - 包括文本、参考音频和参考 运动 - 促进诸如从文本同步生成说话人头部、音频驱动的动画等等任务,在一个连贯的模型中。 JAM-Flow 通过为整体视听合成提供一个实用的解决方案,显着推进了多模态生成建模。 项目页面: https://joonghyuk.com/jamflow-web
查看 arXiv 页面查看 PDF

评论

Joonghyuk ShinJoonghyuk Shin
论文作者
论文提交者

JAM-Flow 让你仅用一个 Flow-Matching 模型即可生成逼真且同步的语音和面部动作! 项目页面: https://joonghyuk.com/jamflow-web/