⏶5
Dress&Dance:随心所欲地换装和跳舞 - 技术预览
发表
由
taesiri 提交

作者: Jun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang
摘要
我们提出了Dress&Dance,一个视频扩散框架,该框架可以在1152x720分辨率下生成高质量的5秒长、24帧/秒的虚拟试穿视频,用户可以试穿想要的服装,同时根据给定的参考视频进行移动。我们的方法需要一张用户图像,支持多种上衣、下装和连体服装,以及单次同时试穿上衣和下装。我们框架的关键是CondNet,一个新颖的条件网络,它利用注意力机制统一多模态输入(文本、图像和视频),从而增强服装配准和运动保真度。CondNet通过多阶段渐进式的方式,在异构训练数据上进行训练,结合了有限的视频数据和一个更大、更易获取的图像数据集。Dress&Dance的表现优于现有的开源和商业解决方案,并提供了高质量、灵活的试穿体验。
> 我们提出了 Dress&Dance,一个视频扩散框架,能够生成高质量的 5 秒长、24 帧/秒的虚拟试穿视频,分辨率为 1152x720,展示用户穿着所需的服装,并根据给定的参考视频进行移动。我们的方法只需要一张用户图像,支持各种上衣、下装和连体服装,以及在一次运行中同时试穿上衣和下装。我们框架的关键是 CondNet,一个新颖的条件网络,它利用注意力机制统一多模态输入(文本、图像和视频),从而增强了服装注册和运动保真度。CondNet 在异构训练数据上进行训练,以多阶段渐进的方式结合有限的视频数据和更大、更易获得的图像数据集。Dress&Dance 的性能优于现有的开源和商业解决方案,并提供高质量、灵活的试穿体验。