⏶29
Phantom-Data:迈向通用主体一致的视频生成数据集
发表
由
Zhuowei_Chen 提交
作者:
Zhuowei Chen,
Bingchuan Li,
Tianxiang Ma, Lijie Liu,
Mingcong Liu, Yi Zhang, Gen Li,
Xinghui Li, Siyu Zhou, Qian He,
Xinglong Wu



摘要
主体到视频生成在近年来取得了实质性进展。然而,现有模型在忠实遵循文本指令方面仍面临重大挑战。这种限制,通常被称为“复制粘贴问题”,源于广泛使用的“对内训练范式”。这种方法通过从与目标视频相同的场景中采样参考图像,本质上将主体身份与背景和上下文属性纠缠在一起。为了解决这个问题,我们引入了Phantom-Data,这是第一个通用跨对主体到视频一致性数据集,包含约一百万个跨多样化类别的身份一致对。我们的数据集通过三阶段流程构建:(1) 一个通用且输入对齐的主体检测模块;(2) 从超过5300万个视频和30亿张图像中进行大规模跨上下文主体检索;(3) 先验引导的身份验证,以确保在上下文变化下的视觉一致性。全面实验表明,使用Phantom-Data进行训练显著提高了提示对齐和视觉质量,同时保持了与对内基线相当的身份一致性。
https://phantom-video.github.io/Phantom-Data/