MultiFinBen: 一个多语言、多模态、难度感知的金融大模型评估基准

发表
Xueqing PengXueqing Peng 提交
作者: Xueqing PengXueqing Peng, Lingfei Qian, Yan WangYan Wang, Ruoyu Xiang, Yueru HeYueru He, Yang Ren, Mingyang JiangMingyang Jiang, Jeff Zhao, Huan He, Yi Han, Yun Feng, Yuechen Jiang, Yupeng Cao, Haohang Li, Yangyang Yu, Xiaoyu Wang, Penglei Gao, Shengyuan Lin, Keyi Wang, Shanshan Yang, Yilun ZhaoYilun Zhao, Zhiwei Liu, Peng Lu, Jerry Huang, Suyuchen WangSuyuchen Wang, Triantafillos Papadopoulos, Polydoros Giannouris, Efstathia Soufleri, Nuo Chen, Guojun Xiong, Zhiyang Deng, Yijia Zhao, Mingquan Lin, Meikang Qiu, Kaleb E Smith, Arman Cohan, Xiao-Yang Liu, Jimin HuangJimin Huang, Alejandro Lopez-Lira, Xi Chen, Junichi Tsujii, Jian-Yun Nie, Sophia Ananiadou, Qianqian Xie

摘要

大型语言模型 (LLM) 的最新进展加速了金融自然语言处理 (NLP) 和应用领域的进展,然而,现有基准仍局限于单语言和单模态环境,通常过度依赖简单任务,未能反映现实世界金融交流的复杂性。我们引入了 MultiFinBen,这是首个为全球金融领域量身定制的多语言、多模态基准,它在领域特定任务中评估大型语言模型在多种模态(文本、视觉、音频)和语言设置(单语言、双语言、多语言)下的表现。我们引入了两项新颖的任务,包括 PolyFiQA-Easy 和 PolyFiQA-Expert,它们是首批要求模型对混合语言输入进行复杂推理的多语言金融基准;以及 EnglishOCR 和 SpanishOCR,它们是首批嵌入 OCR 的金融问答任务,挑战模型从视觉文本金融文档中提取和推理信息。此外,我们提出了一种动态的、难度感知的选择机制,并构建了一个紧凑、均衡的基准,而非简单地聚合现有数据集。对22个最先进模型的广泛评估表明,即使是最强的模型,尽管它们具备通用的多模态和多语言能力,但在金融领域面临复杂的跨语言和多模态任务时,表现仍举步维艰。MultiFinBen 已公开发布,旨在促进金融研究和应用的透明、可复现和包容性进展。
查看 arXiv 页面查看 PDF

评论

Xueqing PengXueqing Peng
论文作者
论文提交者

Screenshot 2025-06-18 at 2.18.08 PM.png

Xueqing PengXueqing Peng
论文作者
论文提交者

Screenshot 2025-06-18 at 2.20.36 PM.png