SpeakerVid-5M:一个用于音视频双人互动生成的大规模高质量数据集

发表
wangwang 提交
作者: Youliang Zhang, Zhaoyang Li, wangDuomin Wang, Jiahe Zhang, Deyu Zhou, Zixin Yin, Xili Dai, Gang Yu, Xiu Li

摘要

大规模模型的快速发展催化了数字人领域的重大突破。这些先进方法为虚拟形象驱动和渲染提供了高保真解决方案,促使学术界将注意力转向下一个重大挑战:视听双人交互式虚拟人。为推动这一新兴领域的研究,我们提出了 SpeakerVid-5M 数据集,这是首个专为生成视听双人交互式虚拟人而设计的大规模、高质量数据集。SpeakerVid-5M 总时长超过 8,743 小时,包含超过 520 万个人物肖像视频片段。它涵盖了不同规模和交互类型,包括单人说话、倾听和双人对话。至关重要的是,该数据集围绕两个关键维度构建:交互类型和数据质量。首先,根据交互场景将其分为四种类型(对话分支、单人分支、倾听分支和多轮分支)。其次,它被分层为一个用于大规模预训练的子集和一个用于监督式微调(SFT)的精选高质量子集。这种双重结构可以适应各种 2D 虚拟人任务。此外,我们提供了一个在该数据上训练的基于自回归(AR)的视频聊天基线,并附带一套专门的指标和测试数据,作为未来工作的基准 VidChatBench。数据集和相应的数据处理代码都将公开发布。项目主页:https://dorniwang.github.io/SpeakerVid-5M/
查看 arXiv 页面查看 PDF

评论

wangwang
论文作者
论文提交者

我们提出了 SpeakerVid-5M,这是首个专为音视频双人交互虚拟人任务设计的大规模数据集。它包含100万对高质量的对话音视频数据,并支持多轮对话。我们还提供了 VidChatBench 以便进行更好的评估。

SpeakerVid-5M 包含500万个单人说话的音视频片段,是目前最大的说话人数据集。它涵盖了多种经过标注的视觉格式,包括说话的头部、半身、全身和侧视角的视频。

我们开源了整个数据集,包括原始数据、标注和数据处理流程,为社区提供了完全的透明度和可复现性。项目页面:https://dorniwang.github.io/SpeakerVid-5M/

XiliDaiXiliDai

这是一项非常出色且有趣的工作!!

LiuLiu

Youliang 太酷了!!