ReMoMask:检索增强型掩蔽运动生成

发表
Zeyu ZhangZeyu Zhang 提交
作者: Zhengdao Li, Siheng Wang, Zeyu ZhangZeyu Zhang, Hao Tang

摘要

文本到动作 (T2M) 生成旨在从自然语言描述中合成逼真且语义对齐的人体动作序列。然而,当前的方法面临双重挑战:生成模型(例如扩散模型)存在多样性有限、误差累积和物理不可信的问题,而检索增强生成 (RAG) 方法则表现出扩散惯性、部分模式崩溃和异步伪影。为了解决这些限制,我们提出了 ReMoMask,一个统一的框架,整合了三个关键创新:1)双向动量文本-动作模型通过动量队列将负样本规模与批次大小解耦,显著提高了跨模态检索精度;2)语义时空注意力机制在部分级融合期间强制执行生物力学约束,以消除异步伪影;3)RAG-无分类器指导结合了少量无条件生成以增强泛化能力。ReMoMask 基于 MoMask 的 RVQ-VAE 构建,能够以最少的步骤高效生成时间连贯的动作。在标准基准上进行的广泛实验证明了 ReMoMask 的最先进性能,与之前的 SOTA 方法 RAG-T2M 相比,在 HumanML3D 和 KIT-ML 上的 FID 分数分别提高了 3.88% 和 10.97%。代码:https://github.com/AIGeeksGroup/ReMoMask。网站:https://aigeeksgroup.github.io/ReMoMask
查看 arXiv 页面查看 PDF

评论

Zeyu ZhangZeyu Zhang
论文作者
论文提交者

文本到动作 (T2M) 生成旨在从自然语言描述中合成逼真且语义对齐的人体动作序列。然而,当前的方法面临双重挑战:生成模型(例如扩散模型)存在多样性有限、错误累积和物理不合理性等问题,而检索增强生成 (RAG) 方法则表现出扩散惯性、部分模式崩溃和异步伪影。为了解决这些限制,我们提出了 ReMoMask,一个集成了三项关键创新的统一框架:1) 双向动量文本-动作模型通过动量队列将负样本规模与批次大小解耦,显著提高了跨模态检索精度;2) 语义时空注意力机制在部分级别融合过程中强制执行生物力学约束,以消除异步伪影;3) RAG-无分类器指导引入少量无条件生成以增强泛化能力。ReMoMask 基于 MoMask 的 RVQ-VAE 构建,能够以最少的步骤高效生成时间连贯的动作。在包括 HumanML3D 在内的标准基准上进行的大量实验表明,该方法达到了最先进的性能,FID 分数显著提高到 0.095,优于 SOTA RAG-t2m 方法。