⏶8
ISDrama:通过多模态提示生成沉浸式空间戏剧
发表
由
Yu Zhang 提交

作者:
Yu Zhang,
Wenxiang Guo,
Changhao Pan,
Zhiyuan Zhu, Tao Jin, Zhou Zhao

摘要
多模态沉浸式空间戏剧生成专注于基于多模态提示创建带有戏剧性韵律的连续多说话人双耳语音,潜在应用于增强现实(AR)、虚拟现实(VR)等领域。这项任务需要基于多模态输入同时建模空间信息和戏剧性韵律,且数据采集成本高。据我们所知,我们的工作是首次尝试应对这些挑战。我们构建了 MRSDrama,首个多模态录制空间戏剧数据集,包含双耳戏剧音频、脚本、视频、几何姿态和文本提示。接着,我们提出了 ISDrama,首个通过多模态提示的沉浸式空间戏剧生成模型。ISDrama 由以下主要组件构成:1) 多模态姿态编码器,基于对比学习,考虑移动说话人引起的多普勒效应,从多模态提示中提取统一的姿态信息。2) 沉浸式戏剧 Transformer,一个基于流的 mamba-transformer 模型,用于生成高质量戏剧,结合 Drama-MOE 以选择合适的专家用于增强的韵律和姿态控制。我们还设计了一种上下文一致的无分类器引导策略,以连贯地生成完整的戏剧。实验结果表明,ISDrama 在客观和主观指标上优于基线模型。演示和数据集可在 https://aaronz345.github.io/ISDramaDemo 获取。
多模态沉浸式空间戏剧生成,旨在基于多模态提示创建具有戏剧性韵律的连续多说话者双耳语音,在AR、VR等领域有潜在应用。这项任务需要基于多模态输入同时建模空间信息和戏剧性韵律,且数据收集成本很高。据我们所知,我们的工作是首次尝试解决这些挑战。我们构建了MRSDrama,这是第一个多模态录制空间戏剧数据集,包含双耳戏剧音频、剧本、视频、几何姿态和文本提示。然后,我们提出了ISDrama,这是第一个通过多模态提示实现的沉浸式空间戏剧生成模型。ISDrama包含以下主要组件:1) 多模态姿态编码器,基于对比学习,考虑了移动说话者引起的多普勒效应,以从多模态提示中提取统一的姿态信息。2) 沉浸式戏剧Transformer,一个基于流的mamba-transformer模型,用于生成高质量的戏剧,集成了Drama-MOE以选择合适的专家,用于增强韵律和姿态控制。我们还设计了一种上下文一致的无分类器引导策略,以连贯地生成完整的戏剧。实验结果表明,ISDrama在客观和主观指标上均优于基线模型。