MOSPA:由空间音频驱动的人体运动生成

发表
Zhiyang DouZhiyang Dou 提交
作者: Shuyang XuShuyang Xu, Zhiyang DouZhiyang Dou, Mingyi Shi, Liang Pan, Leo Ho, Jingbo Wang, Yuan Liu, Cheng Lin, Yuexin Ma, Wenping Wang, Taku Komura

摘要

让虚拟人能够动态且逼真地响应多样的听觉刺激,仍然是角色动画领域的一项关键挑战,这需要整合感知建模与动作合成。尽管这项任务意义重大,但在很大程度上仍未被探索。以往的大多数工作主要集中于映射语音、音频和音乐等模态来生成人体动作。然而,这些模型通常忽略了空间音频信号中编码的空间特征对人体动作的影响。为填补这一空白,并实现对响应空间音频的人体运动进行高质量建模,我们推出了首个全面的空间音频驱动的人体动作(SAM)数据集,其中包含多样化的高质量空间音频和动作数据。在基准测试方面,我们开发了一个简单而有效的基于扩散的生成框架,用于由空间音频驱动的人体动作生成,名为 MOSPA,该框架通过一个有效的融合机制,忠实地捕捉了身体动作和空间音频之间的关系。经过训练后,MOSPA 能够以不同的空间音频输入为条件,生成多样且逼真的人体动作。我们对所提出的数据集进行了深入研究,并为基准测试开展了大量实验,我们的方法在该任务上取得了最先进的性能。我们的模型和数据集将在论文被接收后开源。更多详情请参阅我们的补充视频。
查看 arXiv 页面查看 PDF

评论

Zhiyang DouZhiyang Dou
论文作者
论文提交者

MOSPA:空间音频驱动的人体动作生成

项目页面:https://frank-zy-dou.github.io/projects/MOSPA/index.html

论文:https://arxiv.org/abs/2507.11949

摘要:使虚拟人类能够动态、真实地响应各种听觉刺激,仍然是角色动画中的一个关键挑战,这需要整合感知建模和动作合成。尽管其重要性,这项任务仍未得到充分探索。大多数先前的工作主要集中于将语音、音频和音乐等模态映射以生成人体动作。迄今为止,这些模型通常忽略了空间音频信号中编码的空间特征对人体动作的影响。为了弥补这一空白并实现对空间音频响应的人体动作的高质量建模,我们引入了第一个全面的空间音频驱动人体动作(SAM)数据集,其中包含多样化的高质量空间音频和动作数据。为了进行基准测试,我们开发了一个简单而有效的基于扩散的生成框架,用于由空间音频驱动的人体动作生成,名为MOSPA,它通过有效的融合机制忠实地捕捉身体动作与空间音频之间的关系。经过训练后,MOSPA 可以根据不同的空间音频输入生成多样化、真实的人体动作。我们对所提出的数据集进行了彻底调查,并进行了广泛的基准测试实验,我们的方法在该任务上达到了最先进的性能。我们的模型和数据集将在接受后开源。请参考我们的补充视频了解更多详情。