M^3FinMeeting:一个多语言、多行业、多任务的金融会议理解评估数据集

发表
Jie ZhuJie Zhu 提交
作者: Jie ZhuJie Zhu, Junhui Li, yalong wenYalong Wen, Xiandong LiXiandong Li, guoLifan Guo, Feng Chen

摘要

大型语言模型(LLM)的最新突破催生了评估其在金融领域性能的新基准。然而,当前的金融基准通常依赖于新闻文章、财报或公告,这使得难以捕捉金融会议的真实动态。为了弥补这一空白,我们提出了一个名为 M^3FinMeeting 的新型基准,这是一个多语言、多行业、多任务的数据集,专为金融会议理解而设计。首先,M^3FinMeeting 支持英语、中文和日语,增强了对不同语言环境中金融讨论的理解。其次,它涵盖了全球行业分类标准(GICS)定义的各种行业领域,确保该基准涵盖广泛的金融活动。最后,M^3FinMeeting 包括三项任务:摘要、问答对提取和问答,从而促进了对理解能力的更真实和全面的评估。对七个流行 LLM 的实验结果表明,即使是最先进的长上下文模型仍有很大的改进空间,这证明了 M^3FinMeeting 作为评估 LLM 金融会议理解技能的基准的有效性。
查看 arXiv 页面查看 PDF

评论

Jie ZhuJie Zhu
论文作者
论文提交者

一个为金融会议理解而设计的多语言、多领域、多任务数据集。