⏶9
DianJin-R1:评估与增强大型语言模型中的金融推理能力
发表
由
Jie Zhu 提交
作者:
Jie Zhu, Qian Chen, Huaixia Dou, Junhui Li,
Lifan Guo, Feng Chen, Chi Zhang
摘要
在金融领域,有效的推理仍然是大语言模型(LLM)的核心挑战,该领域的任务通常需要领域特定知识、精确的数值计算以及严格遵守合规规则。我们提出了 DianJin-R1,这是一个旨在通过推理增强监督和强化学习来解决这些挑战的推理增强框架。我们的方法的核心是 DianJin-R1-Data,这是一个由 CFLUE、FinQA 和一个专有合规语料库(中文合规检查,CCC)构建而成的高质量数据集,结合了多样化的金融推理场景并带有经过验证的标注。我们的模型 DianJin-R1-7B 和 DianJin-R1-32B 基于 Qwen2.5-7B-Instruct 和 Qwen2.5-32B-Instruct 进行微调,使用了能够同时生成推理步骤和最终答案的结构化格式。为了进一步提升推理质量,我们采用了 Group Relative Policy Optimization (GRPO),这是一种强化学习方法,它结合了双重奖励信号:一个鼓励生成结构化输出,另一个奖励答案的正确性。我们在五个基准测试中评估了我们的模型:三个金融数据集(CFLUE、FinQA 和 CCC)和两个通用推理基准测试(MATH-500 和 GPQA-Diamond)。实验结果表明,DianJin-R1 模型持续优于其未采用推理方法的对应模型,尤其是在复杂的金融任务上。此外,在真实的 CCC 数据集上,我们的单次调用推理模型性能匹敌甚至超越需要显著更高计算成本的多智能体系统。这些发现证明了 DianJin-R1 通过结构化监督和与奖励对齐的学习在增强金融推理方面的有效性,为实际应用提供了一个可扩展且实用的解决方案。
Qwen DianJin:金融行业大模型