⏶4
PolyVivid:通过跨模态交互和增强生成生动多主题视频
发表
由
YSH 提交

作者: Teng Hu, Zhentao Yu, Zhengguang Zhou, Jiangning Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
摘要
尽管视频生成领域取得了最新进展,现有模型仍然缺乏细粒度的可控性,特别是对于多主体定制中保持一致的身份和交互。在本文中,我们提出了PolyVivid,一个多主体视频定制框架,可实现灵活且身份一致的生成。为了在主体图像和文本实体之间建立精确的对应关系,我们设计了一个基于VLLM的文本-图像融合模块,将视觉身份嵌入到文本空间中以进行精确的接地。为了进一步增强身份保持和主体交互,我们提出了一个基于3D-RoPE的增强模块,可实现文本和图像嵌入之间的结构化双向融合。此外,我们开发了一个注意力继承的身份注入模块,以有效地将融合的身份特征注入视频生成过程,从而减轻身份漂移。最后,我们构建了一个基于MLLM的数据管道,结合了基于MLLM的接地、分割和基于群的科目整合策略,以生成高质量的多主体数据,有效增强主体区分度并减少下游视频生成中的模糊性。大量实验表明,PolyVivid在身份保真度、视频真实感和主体对齐方面取得了卓越性能,优于现有开源和商业基线。
页面:https://sjtuplayer.github.io/projects/PolyVivid/