⏶52

OpenS2V-Nexus：面向主体到视频生成的详细基准和百万规模数据集

05月26日发表

05月28日由 YSH 提交

作者: Shenghai Yuan, hexianyi Xianyi He, Yufan Deng, Yang Ye, Huang Jinfa Huang, linbin Bin Lin, Chongyang Ma, Jiebo Luo, Li Yuan

摘要

主体到视频（S2V）生成旨在创建能够忠实整合参考内容的视频，从而增强视频制作的灵活性。为了建立 S2V 生成的基础设施，我们提出了 OpenS2V-Nexus，包含 (i) OpenS2V-Eval，一个细粒度基准，以及 (ii) OpenS2V-5M，一个百万规模数据集。与继承自 VBench 的现有 S2V 基准不同，后者侧重于对生成视频的全局和粗粒度评估，OpenS2V-Eval 侧重于模型生成具有自然主体外观和身份保真度的主体一致视频的能力。为此，OpenS2V-Eval 引入了来自 S2V 七个主要类别的 180 个提示，其中包括真实和合成测试数据。此外，为了准确地将人类偏好与 S2V 基准对齐，我们提出了三个自动度量标准，NexusScore、NaturalScore 和 GmeScore，分别量化生成视频中的主体一致性、自然性和文本相关性。在此基础上，我们对 16 个具有代表性的 S2V 模型进行了全面评估，突出了它们在不同内容上的优势和劣势。此外，我们创建了第一个开源大规模 S2V 生成数据集 OpenS2V-5M，其中包含五百万个高质量 720P 主体-文本-视频三元组。具体来说，我们通过 (1) 分割主体并通过跨视频关联构建配对信息，以及 (2) 在原始帧上提示 GPT-Image-1 以合成多视图表示来确保我们数据集中的主体信息多样性。通过 OpenS2V-Nexus，我们提供了一个强大的基础设施，以加速未来的 S2V 生成研究。

查看 arXiv 页面查看 PDF

YSH

论文作者

论文提交者

隆重推出 OpenS2V-Nexus，它包含：(i) OpenS2V-Eval，一个细粒度基准，以及 (ii) OpenS2V-5M，一个百万级规模数据集。欢迎试用！

所有资源均开源！让我们一起推动 S2V 研究向前发展！💡

代码: https://github.com/PKU-YuanGroup/OpenS2V-Nexus

页面: https://pku-yuangroup.github.io/OpenS2V-Nexus

OpenS2V-Eval: https://huggingface.co/datasets/BestWishYsh/OpenS2V-Eval

OpenS2V-5M: https://huggingface.co/datasets/BestWishYsh/OpenS2V-5M

YSH

论文作者