VidEmo:用于以情感为中心的视频基础模型的情感树推理

发表
taesiritaesiri 提交
作者: Zhicheng Zhang, Weicheng Wang, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang

摘要

AI 生成总结
一种新颖的情感线索引导推理框架,使用视频情感基础模型和细粒度数据集,在情感理解任务中取得了具有竞争力的性能。
受视频大型语言模型 (VideoLLM) 发展的推动,从视频中理解和预测情感在最近的研究中受到了广泛关注。尽管先进的方法在视频情感分析方面取得了进展,但情感的内在性质带来了重大挑战。情感的特点是动态和线索依赖的属性,这使得以合理的理由理解复杂和不断发展的情感状态变得困难。为了应对这些挑战,我们提出了一种新颖的情感线索引导推理框架,该框架以阶段性方式统一了基本属性感知、表达分析和高层情感理解。我们方法的核心是一系列视频情感基础模型 (VidEmo),专门为情感推理和指令遵循而设计。这些模型经历了两阶段的调整过程:首先,进行课程情感学习以注入情感知识,然后进行情感树强化学习以进行情感推理。此外,我们建立了基础数据基础设施,并引入了一个以情感为中心的细粒度数据集 (Emo-CFG),包含 2.1M 个多样化的基于指令的样本。Emo-CFG 包括可解释的情感问答、细粒度字幕和相关的理由,为推进情感理解任务提供了基本资源。实验结果表明,我们的方法取得了具有竞争力的性能,在 15 个面部感知任务中树立了新的里程碑。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

在近期研究中,从视频中理解和预测情绪受到了广泛关注,这得益于视频大语言模型(VideoLLM)的进步。虽然先进的方法在视频情绪分析方面取得了进展,但情绪的内在性质带来了重大挑战。情绪的特点是动态且依赖线索,这使得理解复杂和不断演变的情绪状态以及合理的推理变得困难。为了应对这些挑战,我们提出了一种新颖的情绪线索引导推理框架,该框架以阶段性方式统一了基本属性感知、表情分析和高层情绪理解。我们方法的核心是一系列视频情绪基础模型(VidEmo),专门为情绪推理和指令遵循而设计。这些模型经历了两个阶段的调整过程:首先是用于注入情绪知识的课程情绪学习,然后是用于情绪推理的情绪树强化学习。此外,我们建立了一个基础数据基础设施,并引入了一个以情绪为中心的细粒度数据集(Emo-CFG),包含210万个多样化的基于指令的样本。Emo-CFG包括可解释的情绪问答、细粒度字幕和相关的推理,为推进情绪理解任务提供了基本资源。实验结果表明,我们的方法取得了竞争性的表现,在15项面部感知任务中树立了新的里程碑。