⏶9

JAM-Flow：使用流匹配的联合音频-动作合成

06月30日发表

07月03日由 Joonghyuk Shin 提交

作者: Mingi Kwon, Joonghyuk Shin, Jaeseok Jung, Jaesik Park, Youngjung Uh

摘要

在生成建模中，面部运动和语音之间的内在联系常常被忽视，其中说话人头部合成和文本到语音 (TTS) 通常被作为单独的任务来处理。本文介绍了一种统一的框架 JAM-Flow，可以同时合成和调节面部运动和语音。我们的方法利用流匹配和一种新的多模态扩散转换器 (MM-DiT) 架构，集成了专门的 Motion-DiT 和 Audio-DiT 模块。这些模块通过选择性的联合注意力层耦合，并包含关键的架构选择，例如时间对齐的位置嵌入和局部联合注意力掩码，以实现有效的跨模态交互，同时保持模态特定的优势。通过一种修复式目标进行训练，JAM-Flow 支持各种各样的条件输入 - 包括文本、参考音频和参考运动 - 促进诸如从文本同步生成说话人头部、音频驱动的动画等等任务，在一个连贯的模型中。 JAM-Flow 通过为整体视听合成提供一个实用的解决方案，显着推进了多模态生成建模。项目页面: https://joonghyuk.com/jamflow-web

查看 arXiv 页面查看 PDF

Joonghyuk Shin

论文作者

论文提交者

JAM-Flow 让你仅用一个 Flow-Matching 模型即可生成逼真且同步的语音和面部动作！项目页面: https://joonghyuk.com/jamflow-web/

JAM-Flow：使用流匹配的联合音频-动作合成

摘要

评论