MCIF:基于科学演讲的多模态跨语言指令遵循基准

发表
Sara PapiSara Papi 提交
作者: Sara Papi, Maike Züfle, Marco Gaido, Beatrice Savoldi, Danni Liu, Ioannis Douros, Luisa Bentivogli, Jan Niehues

摘要

大型语言模型在最近的进展催生了多模态大型语言模型(MLLM)的发展,这些模型将文本、语音和视觉整合到统一的框架中。随着MLLM从狭窄的、单语的、任务特定的系统演变为通用指令遵循模型,一个关键前沿在于评估它们在长短语境下的多语言和多模态能力。然而,现有的基准未能共同评估这些维度:它们通常仅限于英语,大多一次只关注一种模态,依赖于短文本语境,或者缺乏人工标注——这阻碍了对模型跨语言、跨模态和跨任务复杂度的性能进行全面评估。为了解决这些不足,我们引入了MCIF(多模态跨语言指令遵循),这是第一个基于科学讲座、旨在评估短文本和长文本输入下跨语言、多模态设置中指令遵循能力的人工标注多语言基准。MCIF涵盖了三种核心模态——语音、视觉和文本——以及四种不同的语言(英语、德语、意大利语和中文),从而能够全面评估MLLM解释跨语言指令并将其与多模态上下文信息相结合的能力。MCIF在CC-BY 4.0许可下发布,以鼓励MLLM开发领域的开放研究和进展。
查看 arXiv 页面查看 PDF

评论

Sara PapiSara Papi
论文提交者

MMIF-infographic (6) (cropped) (pdfresizer.com).png