⏶25
FlexiAct:面向异构场景的灵活动作控制
发表
由
ElevenZ 提交
作者:
Shiyi Zhang,
Junhao Zhuang,
Zhaoyang Zhang, Ying Shan, Yansong Tang
摘要
动作定制涉及生成视频,其中主体执行由输入控制信号指定的动作。现有方法使用姿态引导或全局运动定制,但受制于空间结构上的严格约束,例如布局、骨骼和视点一致性,这限制了其在不同主体和场景中的适应性。为了克服这些限制,我们提出了FlexiAct,它可以将参考视频中的动作转移到任意目标图像上。与现有方法不同,FlexiAct允许参考视频主体和目标图像之间在布局、视点和骨骼结构上存在差异,同时保持身份一致性。实现这一点需要精确的动作控制、空间结构适应性和一致性保持。为此,我们引入了RefAdapter,这是一个轻量级的图像条件适配器,擅长空间适应和一致性保持,在平衡外观一致性和结构灵活性方面超越了现有方法。此外,根据我们的观察,去噪过程在不同时间步对运动(低频)和外观细节(高频)表现出不同程度的关注。因此,我们提出了FAE(频率感知动作提取),它与依赖独立时空架构的现有方法不同,直接在去噪过程中实现动作提取。实验表明,我们的方法有效地将动作转移到具有不同布局、骨骼和视点的主体上。我们发布了代码和模型权重,以支持进一步研究,地址:https://shiyi-zh0408.github.io/projectpages/FlexiAct/
论文: https://arxiv.org/abs/2505.03730
项目页面: https://shiyi-zh0408.github.io/projectpages/FlexiAct/
Github: https://github.com/shiyi-zh0408/FlexiAct
模型: https://huggingface.co/shiyi0408/FlexiAct