⏶9
MotionFlux:通过修正流匹配和偏好对齐实现高效的文本引导运动生成
发表
由
taesiri 提交

作者:
Zhiting Gao, Dan Song, Diqiong Jiang, Chao Xue, An-An Liu
摘要
运动生成对于动画虚拟角色和具身代理至关重要。尽管最近的文本驱动方法取得了重大进展,但它们在实现语言描述与运动语义的精确对齐以及解决缓慢、多步推理的低效问题方面常常遇到困难。为了解决这些问题,我们引入了TMR++对齐偏好优化(TAPO),这是一个创新的框架,它将细微的运动变化与文本修饰符对齐,并结合迭代调整以加强语义基础。为了进一步实现实时合成,我们提出了MotionFLUX,一个基于确定性整流流匹配的高速生成框架。与需要数百次去噪步骤的传统扩散模型不同,MotionFLUX在噪声分布和运动空间之间构建最优传输路径,从而实现实时合成。线性化概率路径减少了对顺序方法典型的多步采样的需求,显著加快了推理时间,而不会牺牲运动质量。实验结果表明,TAPO和MotionFLUX共同构成了一个统一的系统,在语义一致性和运动质量方面均优于最先进的方法,同时还加快了生成速度。代码和预训练模型将发布。
> 运动生成对于动画虚拟角色和具身智能体至关重要。尽管最近的文本驱动方法取得了显著进展,但它们通常在实现语言描述与运动语义之间的精确对齐方面遇到困难,并且存在推理缓慢、多步骤的低效率问题。为了解决这些问题,我们引入了 TMR++ 语言偏好优化(TAPO),这是一个创新的框架,它将细微的运动变化与文本修饰符对齐,并包含迭代调整以加强语义基础。为了进一步实现实时合成,我们提出了 MotionFLUX,一个基于确定性修正流匹配的高速生成框架。与需要数百个去噪步骤的传统扩散模型不同,MotionFLUX 构建了噪声分布与运动空间之间的最优传输路径,从而实现实时合成。线性化的概率路径减少了对顺序方法典型的多步采样的需求,从而在不牺牲运动质量的情况下显著加快了推理速度。实验结果表明,TAPO 和 MotionFLUX 共同构成了一个统一的系统,在语义一致性和运动质量方面均优于最先进的方法,同时还加快了生成速度。代码和预训练模型将被发布。