从分数到技能:评估金融大语言模型的认知诊断框架

发表
Mengxi XiaoMengxi Xiao 提交
作者: Ziyan Kuang, Feiyu Zhu, Maowei Jiang, Yanzhao LaiYanzhao Lai, Zelin Wang, Zhitong Wang, Meikang Qiu, Jiajia HuangJiajia Huang, Min Peng, XieQianqian Xie, Sophia AnaniadouSophia Ananiadou

摘要

大型语言模型 (LLM) 在金融应用方面展现出潜力,但由于现有基准的不足,其在高风险领域的适用性尚未得到充分验证。现有基准仅依赖于得分级别的评估,通过单一分数总结性能,这模糊了模型真正知识的细微理解及其精确的局限性。它们还依赖于只涵盖一小部分金融概念的数据集,而忽略了实际应用的其他要素。为了弥合这些差距,我们提出了 FinCDM,这是第一个针对金融 LLM 定制的认知诊断评估框架,能够对 LLM 进行知识-技能级别的评估,根据模型在带有技能标签的任务中的响应模式来识别它们是否具备或缺乏特定的金融技能和知识,而不是一个单一的总分。我们构建了 CPA-QKA,这是第一个源自注册会计师 (CPA) 考试的、具有认知启发性的金融评估数据集,全面涵盖了实际的会计和金融技能。该数据集经过领域专家严格标注,专家负责编写、验证问题,并对问题进行标注,具有高标注者间一致性和细粒度的知识标签。我们对 30 个专有、开源和领域特定的 LLM 进行了广泛的实验,结果表明 FinCDM 揭示了隐藏的知识差距,识别了传统基准忽略的税务和监管推理等测试不足的领域,并发现了模型之间的行为集群。FinCDM 通过实现可解释、技能感知的诊断,为金融 LLM 评估引入了新的范式,支持更值得信赖和有针对性的模型开发,所有数据集和评估脚本都将公开,以支持进一步的研究。
查看 arXiv 页面查看 PDF

评论

Mengxi XiaoMengxi Xiao
论文提交者

image.png