FinMME:用于金融多模态推理评估的基准数据集

发表
junyujunyu 提交
作者: junyuJunyu Luo, Alan KOUZhizhuo Kou, Yang LimingLiming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo

摘要

多模态大型语言模型(MLLMs)近年来发展迅速。然而,在金融领域,却显著缺乏有效且专业的专门多模态评估数据集。为了推动 MLLMs 在金融领域的发展,我们引入了 FinMME,它包含 18 个金融领域和 6 个资产类别中超过 11,000 个高质量的金融研究样本,涵盖 10 种主要图表类型和 21 种子类型。我们通过 20 名标注者和精心设计的验证机制确保数据质量。此外,我们开发了 FinScore,一个包含幻觉惩罚和多维能力评估的评估系统,以提供无偏见的评估。大量的实验结果表明,即使是 GPT-4o 等最先进的模型在 FinMME 上也表现不佳,这突显了其挑战性。该基准表现出高鲁棒性,在不同提示下预测变化保持在 1% 以下,显示出优于现有数据集的可靠性。我们的数据集和评估协议可在 https://huggingface.co/datasets/luojunyu/FinMMEhttps://github.com/luo-junyu/FinMME 获取。
查看 arXiv 页面查看 PDF
FinMME:用于金融多模态推理评估的基准数据集

评论

junyujunyu
论文作者
论文提交者

FinMME 是一个用于多模态金融AI的开创性基准数据集,旨在弥补此类资源的显著不足。它被设计为极具挑战性。

junyujunyu
论文作者
论文提交者

欢迎查看和使用我们的数据集!!

https://huggingface.co/datasets/luojunyu/FinMME