⏶4
FinTrust:金融领域可信度评估的综合基准测试
发表
由
Tiansheng Hu 提交
作者:
Tiansheng Hu,
Tongyan Hu, Liuyang Bai, Yilun Zhao, Arman Cohan, Chen Zhao
摘要
AI 生成总结
FinTrust 是一个旨在评估 LLM 在金融应用中可信度的基准测试,侧重于对齐问题,并揭示了法律意识方面的差距。最近的大型语言模型在解决金融相关问题方面表现出令人鼓舞的能力。然而,由于其高风险和高利害的特性,在实际金融应用中应用大型语言模型仍然具有挑战性。本文介绍了 FinTrust,一个专门用于评估金融应用中大型语言模型可信度的全面基准。我们的基准关注基于实际上下文的广泛对齐问题,并为可信度评估的每个维度提供细粒度任务。我们对 FinTrust 上的十一个 LLM 进行了评估,发现 o4-mini 等专有模型在安全性等大多数任务上表现优于开源模型,而 DeepSeek-V3 等开源模型在行业级公平性等特定领域具有优势。对于信托义务对齐和披露等具有挑战性的任务,所有 LLM 都表现不佳,表明在法律意识方面存在显著差距。我们相信 FinTrust 可以成为 LLM 在金融领域可信度评估的一个有价值的基准。
最近的大型语言模型(LLM)在解决金融相关问题方面展现出了可喜的能力。然而,由于金融应用的固有高风险和高 Stakes 特性,将其应用于现实世界中的金融应用仍然充满挑战。本文提出了 FinTrust,一个专门为评估 LLM 在金融应用中可信度而设计的综合性基准。我们的基准关注基于实际场景的广泛的对齐问题,并为可信度评估的每个维度提供精细的任务。我们评估了 11 个 LLM 在 FinTrust 上的表现,发现像 o4-mini 这样的闭源模型在安全性等大多数任务上表现出色,而像 DeepSeek-V3 这样的开源模型在行业层面的公平性等特定领域具有优势。对于信托责任对齐和披露等具有挑战性的任务,所有 LLM 都表现不佳,显示出在法律意识方面存在显著差距。我们相信 FinTrust 可以成为评估 LLM 在金融领域可信度的一个有价值的基准。