⏶9
JAM-Flow:使用流匹配的联合音频-动作合成
发表
由
Joonghyuk Shin 提交
作者: Mingi Kwon,
Joonghyuk Shin, Jaeseok Jung, Jaesik Park, Youngjung Uh
摘要
在生成建模中,面部运动和语音之间的内在联系常常被忽视,其中说话人头部合成和文本到语音 (TTS)
通常被作为单独的任务来处理。 本文介绍了一种统一的框架 JAM-Flow,可以同时合成和调节
面部运动和语音。 我们的方法利用流匹配和一种新的多模态扩散转换器 (MM-DiT) 架构,集成了专门的 Motion-DiT
和 Audio-DiT 模块。 这些模块通过选择性的联合注意力层耦合,并包含关键的架构选择,例如时间对齐的
位置嵌入和局部联合注意力掩码,以实现有效的跨模态交互,同时保持模态特定的优势。
通过一种修复式目标进行训练,JAM-Flow 支持各种各样的
条件输入 - 包括文本、参考音频和参考
运动 - 促进诸如从文本同步生成说话人头部、音频驱动的动画等等任务,在一个连贯的模型中。
JAM-Flow 通过为整体视听合成提供一个实用的解决方案,显着推进了多模态生成建模。 项目页面:
https://joonghyuk.com/jamflow-web
JAM-Flow 让你仅用一个 Flow-Matching 模型即可生成逼真且同步的语音和面部动作! 项目页面: https://joonghyuk.com/jamflow-web/