通过视觉动作提示实现精确的动作到视频生成

发表
Chao WenChao Wen 提交
作者: Yuang WangYuang Wang, Chao WenChao Wen, hyHaoyu Guo, Sida Peng, Minghan QinMinghan Qin, Hujun Bao, Xiaowei Zhou, Ruizhen Hu

摘要

我们提出了视觉动作提示,这是一种统一的动作表示,用于复杂高自由度交互的动作到视频生成,同时保持跨领域可迁移的视觉动态。动作驱动的视频生成面临精度-通用性权衡:现有使用文本、原始动作或粗略遮罩的方法提供了通用性但缺乏精度,而以代理为中心的动作信号则以牺牲跨领域可迁移性为代价提供精度。为了平衡动作精度和动态可迁移性,我们提出将动作“渲染”成精确的视觉提示,作为领域无关的表示,以保留复杂动作的几何精度和跨领域适应性;具体来说,我们选择视觉骨架,因为它们具有通用性和可访问性。我们提出了鲁棒的管道,用于从两种富含交互的数据源——人-物交互(HOI)和灵巧的机器人操作——构建骨架,从而实现动作驱动生成模型的跨领域训练。通过将视觉骨架通过轻量级微调集成到预训练的视频生成模型中,我们能够精确控制复杂交互的动作,同时保留跨领域动态的学习。在EgoVid、RT-1和DROID上的实验证明了我们提出方法的有效性。项目页面:https://zju3dv.github.io/VAP/
查看 arXiv 页面查看 PDF

评论

Chao WenChao Wen
论文作者
论文提交者

已被 ICCV 2025 接受。项目页面:https://zju3dv.github.io/VAP/