⏶2
FinChain:一个用于可验证金融推理思维链的符号基准
发表
由
Zhuohan Xie 提交
作者:
Zhuohan Xie, Dhruv Sahnan, Debopriyo Banerjee, Georgi Georgiev, Rushil Thareja, Hachem Madmoun, Jinyan Su, Aaryamonvikram Singh, Yuxia Wang, Rui Xing, Fajri Koto, Haonan Li, Ivan Koychev, Tanmoy Chakraborty, Salem Lahlou, Veselin Stoyanov, Preslav Nakov
摘要
多步符号推理对于提升金融任务的下游性能至关重要。然而,目前缺乏系统评估这种能力的基准。现有数据集,如 FinQA 和 ConvFinQA,只监督最终的数值答案,而不评估中间推理步骤。为了解决这个问题,我们引入了 FinChain,这是第一个专为可验证的思维链(CoT)金融推理设计的符号基准。FinChain 涵盖 12 个金融领域的 54 个主题,每个主题提供五个参数化模板,每个模板在推理复杂度和所需的领域专业知识方面有所不同。每个数据集实例都包含一个可执行的 Python 追踪,从而能够自动生成大量的训练数据并轻松适应其他领域。我们还引入了 ChainEval,这是一个用于自动评估最终答案和中间推理的新指标。通过在我们数据集上对 30 个大型语言模型(LLMs)进行基准测试,我们发现即使是最先进的模型在多步金融推理方面仍有很大的改进空间。FinChain 的所有模板和评估指标均可在 https: //github.com/mbzuai-nlp/finchain 获取。
🔍 FinChain:一个用于可验证的金融思维链推理的符号基准
我们引入了 FinChain,这是一个旨在评估和提升大型语言模型(LLMs)在金融任务中推理能力的基准。与以往依赖最终答案监督的工作不同,FinChain 为 54 个金融主题提供了符号化、可执行的思维链追踪。它实现了细粒度、可验证的推理监督,并有助于开发可解释、值得信赖的金融智能体。
📌 数据集与代码:github.com/mbzuai-nlp/finchain