DreamActor-H1:基于运动设计的扩散式Transformer的高保真人体-产品演示视频生成

发表
Lizhen WangLizhen Wang 提交
作者: Lizhen Wang, Zhurong Xia, Tianshu Hu, Pengrui Wang, Pengfei Wang, Zerong Zheng, Ming Zhou

摘要

在电子商务和数字营销中,生成高保真的人-产品演示视频对于有效的产品展示至关重要。然而,大多数现有框架要么未能保留人物和产品的身份,要么缺乏对人-产品空间关系的理解,导致不真实的表示和不自然的交互。为了解决这些挑战,我们提出了一种基于扩散变换器(DiT)的框架。我们的方法通过注入配对的人-产品参考信息并利用额外的掩码交叉注意力机制,同时保留了人物身份和产品特有细节,如徽标和纹理。我们采用3D人体网格模板和产品边界框来提供精确的动作引导,从而实现手势与产品放置的直观对齐。此外,我们使用结构化文本编码来融入类别级语义,增强帧间小旋转变化时的3D一致性。我们的方法在混合数据集上进行训练,并采用广泛的数据增强策略,在保持人物和产品身份完整性以及生成真实演示动作方面优于现有最先进技术。项目页面: https://submit2025-dream.github.io/DreamActor-H1/
查看 arXiv 页面查看 PDF

评论

Lizhen WangLizhen Wang
论文提交者

我们提出 DreamActor-H1,一个新颖的基于扩散Transformer (DiT) 的框架,能够从配对的人像和产品图像生成高质量的人货演示视频。DreamActor-H1 在一个包含多类别增强的大规模混合数据集上进行训练,在保持人货身份完整性和生成符合物理规律的演示动作方面,其性能优于现有最先进的方法,使其适用于个性化电子商务广告和互动媒体。项目页面:https://submit2025-dream.github.io/DreamActor-H1/。