⏶2
绝对坐标使运动生成变得容易
发表
由
Zichong Meng 提交

作者:
Zichong Meng, Zeyu Han,
Xiaogang Peng, Yiming Xie,
Huaizu Jiang


摘要
最先进的文本到运动生成模型依赖于 HumanML3D 普及的、感知运动、局部相对的运动表示,它将运动编码相对于骨盆和前一帧,并内置冗余。虽然这种设计简化了早期生成模型的训练,但它为扩散模型引入了关键限制,并阻碍了其在下游任务中的应用。在这项工作中,我们重新审视了运动表示,并提出了一种从根本上简化且早已被放弃的文本到运动生成替代方案:全局空间中的绝对关节坐标。通过对设计选择的系统分析,我们表明这种公式即使使用简单的 Transformer 主干且没有辅助的感知运动损失,也能实现显著更高的运动保真度、改进的文本对齐和强大的可扩展性。此外,我们的公式自然支持文本驱动的运动控制和时间/空间编辑等下游任务,而无需额外的针对任务的重新设计和昂贵的分类器引导生成来自控制信号。最后,我们展示了直接从文本生成运动中的 SMPL-H 网格顶点的有前景的泛化能力,为未来的研究和运动相关应用奠定了坚实的基础。
最先进的文本到动作生成模型依赖于 HumanML3D 所普及的运动学感知、局部相对运动表示,该表示将动作相对于骨盆和前一帧进行编码,并内置冗余。虽然这种设计简化了早期生成模型的训练,但它为扩散模型带来了关键限制,并阻碍了其在下游任务中的应用。在这项工作中,我们重新审视了运动表示,并提出了一种针对文本到动作生成而被长期抛弃的彻底简化替代方案:全局空间中的绝对关节坐标。通过对设计选择的系统分析,我们表明这种公式化实现了显著更高的运动保真度、改进的文本对齐以及强大的可伸缩性,即使使用简单的 Transformer 主干且没有辅助的运动学感知损失。此外,我们的公式化自然支持下游任务,例如文本驱动的运动控制和时间/空间编辑,而无需额外的针对特定任务的重新设计和昂贵的分类器引导生成。最后,我们展示了在直接从文本生成 SMPL-H 网格顶点动作方面的有前景的泛化能力,为未来的研究和运动相关应用奠定了坚实的基础。