⏶35

FinMME：用于金融多模态推理评估的基准数据集

05月30日发表

06月04日由 junyu 提交

作者: Junyu Luo, Alan KOU Zhizhuo Kou, Yang Liming Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo

摘要

多模态大型语言模型（MLLMs）近年来发展迅速。然而，在金融领域，却显著缺乏有效且专业的专门多模态评估数据集。为了推动 MLLMs 在金融领域的发展，我们引入了 FinMME，它包含 18 个金融领域和 6 个资产类别中超过 11,000 个高质量的金融研究样本，涵盖 10 种主要图表类型和 21 种子类型。我们通过 20 名标注者和精心设计的验证机制确保数据质量。此外，我们开发了 FinScore，一个包含幻觉惩罚和多维能力评估的评估系统，以提供无偏见的评估。大量的实验结果表明，即使是 GPT-4o 等最先进的模型在 FinMME 上也表现不佳，这突显了其挑战性。该基准表现出高鲁棒性，在不同提示下预测变化保持在 1% 以下，显示出优于现有数据集的可靠性。我们的数据集和评估协议可在 https://huggingface.co/datasets/luojunyu/FinMME 和 https://github.com/luo-junyu/FinMME 获取。

查看 arXiv 页面查看 PDF

junyu

论文作者

论文提交者

FinMME 是一个用于多模态金融AI的开创性基准数据集，旨在弥补此类资源的显著不足。它被设计为极具挑战性。

junyu

论文作者

论文提交者

欢迎查看和使用我们的数据集！！

https://huggingface.co/datasets/luojunyu/FinMME

FinMME：用于金融多模态推理评估的基准数据集

摘要

评论