Social-MAE:一种基于 Transformer 的多模态自编码器,用于人脸和声音

发表
Hugo BohyHugo Bohy 提交
作者: Hugo BohyHugo Bohy, Minh Tran, Kevin El Haddad, Thierry Dutoit, Mohammad Soleymani

摘要

人类的社会行为本身就是多模态的,这需要开发强大的视听模型来进行感知。在本文中,我们提出了Social-MAE,这是一个基于对比音频-视觉掩码自编码器(CAV-MAE)的扩展版本的预训练视听掩码自编码器,它是在视听社会数据上预训练的。具体来说,我们修改了CAV-MAE,使其能够接收更多帧作为输入,并在一个大型人类社会互动数据集(VoxCeleb2)上以自监督的方式进行预训练。我们通过在不同的社会和情感下游任务上进行微调和评估来证明该模型的有效性,这些任务包括情感识别、笑声检测和外在人格估计。该模型在多模态情感识别和笑声识别方面取得了最先进的结果,在外观人格估计方面也取得了有竞争力的结果,证明了领域内自监督预训练的有效性。代码和模型权重可在以下网址获取:https://github.com/HuBohy/SocialMAE
查看 arXiv 页面查看 PDF

评论

Hugo BohyHugo Bohy
论文作者
论文提交者

image.png