⏶5

Dress&Dance：随心所欲地换装和跳舞 - 技术预览

08月28日发表

08月29日由 taesiri 提交

作者: Jun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang

摘要

我们提出了Dress&Dance，一个视频扩散框架，该框架可以在1152x720分辨率下生成高质量的5秒长、24帧/秒的虚拟试穿视频，用户可以试穿想要的服装，同时根据给定的参考视频进行移动。我们的方法需要一张用户图像，支持多种上衣、下装和连体服装，以及单次同时试穿上衣和下装。我们框架的关键是CondNet，一个新颖的条件网络，它利用注意力机制统一多模态输入（文本、图像和视频），从而增强服装配准和运动保真度。CondNet通过多阶段渐进式的方式，在异构训练数据上进行训练，结合了有限的视频数据和一个更大、更易获取的图像数据集。Dress&Dance的表现优于现有的开源和商业解决方案，并提供了高质量、灵活的试穿体验。

查看 arXiv 页面查看 PDF

taesiri

论文提交者

> 我们提出了 Dress&Dance，一个视频扩散框架，能够生成高质量的 5 秒长、24 帧/秒的虚拟试穿视频，分辨率为 1152x720，展示用户穿着所需的服装，并根据给定的参考视频进行移动。我们的方法只需要一张用户图像，支持各种上衣、下装和连体服装，以及在一次运行中同时试穿上衣和下装。我们框架的关键是 CondNet，一个新颖的条件网络，它利用注意力机制统一多模态输入（文本、图像和视频），从而增强了服装注册和运动保真度。CondNet 在异构训练数据上进行训练，以多阶段渐进的方式结合有限的视频数据和更大、更易获得的图像数据集。Dress&Dance 的性能优于现有的开源和商业解决方案，并提供高质量、灵活的试穿体验。

Dress&Dance：随心所欲地换装和跳舞 - 技术预览

摘要

评论