⏶35
FinMME:用于金融多模态推理评估的基准数据集
发表
由
junyu 提交

作者:
Junyu Luo,
Zhizhuo Kou,
Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo

摘要
多模态大型语言模型(MLLMs)近年来发展迅速。然而,在金融领域,却显著缺乏有效且专业的专门多模态评估数据集。为了推动 MLLMs 在金融领域的发展,我们引入了 FinMME,它包含 18 个金融领域和 6 个资产类别中超过 11,000 个高质量的金融研究样本,涵盖 10 种主要图表类型和 21 种子类型。我们通过 20 名标注者和精心设计的验证机制确保数据质量。此外,我们开发了 FinScore,一个包含幻觉惩罚和多维能力评估的评估系统,以提供无偏见的评估。大量的实验结果表明,即使是 GPT-4o 等最先进的模型在 FinMME 上也表现不佳,这突显了其挑战性。该基准表现出高鲁棒性,在不同提示下预测变化保持在 1% 以下,显示出优于现有数据集的可靠性。我们的数据集和评估协议可在 https://huggingface.co/datasets/luojunyu/FinMME 和 https://github.com/luo-junyu/FinMME 获取。

FinMME 是一个用于多模态金融AI的开创性基准数据集,旨在弥补此类资源的显著不足。它被设计为极具挑战性。