⏶17
大型语言模型能否帮助多模态语言分析?MMLA:综合基准
发表
由
Hanlei Zhang 提交

作者:
Hanlei Zhang,
Zhuohang Li, Yeshuang Zhu, Hua Xu,
Peiwu Wang,
Haige Zhu, Jie Zhou, Jinchao Zhang

摘要
多模态语言分析是一个快速发展的领域,它利用多种模态来增强对人类对话话语中隐含的高级语义的理解。尽管其意义重大,但很少有研究考察过多模态大型语言模型(MLLMs)理解认知层面语义的能力。在本文中,我们介绍 MMLA,一个专门设计用来弥补这一空白的全面基准。MMLA 包含超过 6.1 万个多模态话语,这些话语来自表演场景和真实世界场景,涵盖多模态语义的六个核心维度:意图、情感、对话行为、情绪、说话风格和交际行为。我们使用三种方法评估了 LLMs 和 MLLMs 的八个主流分支:零样本推理、有监督微调和指令微调。大量实验表明,即使是微调过的模型也只能达到约 60%~70% 的准确率,这凸显了当前 MLLMs 在理解复杂人类语言方面的局限性。我们相信 MMLA 将作为探索大型语言模型在多模态语言分析中潜力的坚实基础,并为推动该领域发展提供宝贵的资源。数据集和代码已在 https://github.com/thuiar/MMLA 开源。
本文提出了 MMLA,这是首个用于评估基础模型的全面多模态语言分析基准。它具有以下亮点和特点:
多样化来源:9个数据集,超过6.1万样本,3种模态,76.6小时视频。涵盖表演和真实世界场景(电影、电视剧、YouTube、Vimeo、Bilibili、TED、即兴脚本等)。
6个核心语义维度:意图、情感、情绪、对话行为、说话风格和交际行为。
3种评估方法:零样本推理、有监督微调和指令微调。
8种主流基础模型:5种多模态大语言模型(Qwen2-VL, VideoLLaMA2, LLaVA-Video, LLaVA-OV, MiniCPM-V-2.6)和3种大语言模型(InternLM2.5, Qwen2, LLaMA3)。