多人交互对话数据集

发表
wu weijiawu weijia 提交
作者: ZhuZeyu Zhu, Weijia Wu, Mike Zheng Shou

摘要

现有关于生成对话视频的研究主要集中在单人独白或孤立的面部动画上,这限制了它们在真实多方互动场景中的应用。为了弥补这一差距,我们引入了 MIT,一个专为多方对话视频生成设计的大规模数据集。为此,我们开发了一个自动化流程,用于收集和标注多人对话视频。最终的数据集包含 12 小时的高分辨率影像,每段视频包含两到四名发言者,并带有精细的身体姿态和语音互动标注。它捕捉了多说话人场景下自然的对话动态,为研究互动性视觉行为提供了丰富的资源。为了展示 MIT 的潜力,我们进一步提出了 CovOG,一个针对这项新任务的基线模型。该模型集成了一个多人姿态编码器(MPE),通过聚合个体姿态嵌入来处理不同数量的说话者;以及一个交互式音频驱动器(IAD),根据特定说话者的音频特征来调节头部动态。这些组件共同展示了生成真实多方对话视频的可行性与挑战,确立了 MIT 作为未来研究的宝贵基准。代码可在以下地址获取:https://github.com/showlab/Multi-human-Talking-Video-Dataset
查看 arXiv 页面查看 PDF

评论

wu weijiawu weijia
论文提交者

现有关于说话视频生成的研究主要集中在单人独白或孤立的面部动画,限制了它们在现实多人交互中的适用性。为了弥补这一差距,我们引入了 MIT,一个专为多人说话视频生成设计的大规模数据集。为此,我们开发了一个自动管道来收集和标注多人物对话视频。由此产生的数据集包含 12 小时的高分辨率素材,每个素材都有两到四名说话者,并附有身体姿势和语音交互的精细标注。它捕捉了多说话者场景中自然的对话动态,为研究交互式视觉行为提供了丰富的资源。为了展示 MIT 的潜力,我们进一步提出了 CovOG,一个针对这项新任务的基线模型。它集成了多人姿态编码器 (MPE) 来通过聚合个体姿态嵌入来处理不同数量的说话者,以及交互式音频驱动器 (IAD) 来根据说话者特定的音频特征调节头部动态。这些组件共同展示了生成逼真多人说话视频的可行性和挑战,使 MIT 成为未来研究的宝贵基准。

Reza SayarReza Sayar

团队表现出色👏🏼🔥 虽然说实话,吉米·法伦可能是我最不想模仿他手势的人了,要给我们的未来机器人做示范的话😅