⏶17
TalkVid:用于音频驱动说话人头合成的大规模多样化数据集
发表
由
Shunian Chen 提交
作者: Shunian Chen, Hejin Huang, Yexin Liu, Zihan Ye, Pengcheng Chen, Chenghao Zhu, Michael Guan,
Rongsheng Wang, Junying Chen, Guanbin Li, Ser-Nam Lim, Harry Yang, Benyou Wang

摘要
音频驱动的说话头合成在照片真实感方面取得了显著成就,但最先进(SOTA)模型却存在一个关键缺陷:它们无法泛化到不同种族、语言和年龄群体的人类多样性的全部范围。我们认为这种泛化差距是现有训练数据限制的直接体现,这些数据缺乏必要的规模、质量和多样性。为了解决这一挑战,我们引入了 TalkVid,一个大型、高质量、多样化的新数据集,包含来自 7729 位独特说话人的 1244 小时视频。TalkVid 通过一个原则性的、多阶段的自动化管道进行策划,该管道严格过滤运动稳定性、美学质量和面部细节,并经过人类判断验证以确保其可靠性。此外,我们构建并发布了 TalkVid-Bench,这是一个包含 500 个片段的分层评估集,在关键的人口统计学和语言学轴线上经过精心平衡。我们的实验表明,在 TalkVid 上训练的模型优于在先前数据集上训练的模型,展现出更优越的跨数据集泛化能力。至关重要的是,我们对 TalkVid-Bench 的分析揭示了亚群体之间的性能差异,而这些差异被传统的聚合指标所掩盖,这突显了其对未来研究的必要性。代码和数据可在 https://github.com/FreedomIntelligence/TalkVid 找到。
TalkVid 是一个大规模、多样化的音频驱动的说话人头部合成开源数据集,其特点是:
规模:7,729 位独特说话人,超过 1,244 小时的高清/4K 视频
多样性:涵盖 15 种语言和广泛的年龄范围(0-60+ 岁)
质量:高分辨率视频(1080p 和 2160p),并经过全面的质量筛选
丰富上下文:与仅头部数据集不同,包含完整上半身
标注:高质量的字幕和全面的元数据
下载链接:🤗 Hugging Face