⏶13
FinTagging:用于提取和结构化金融信息的LLM(大型语言模型)就绪基准
发表
由
Yan Wang 提交
作者:
Yan Wang, Yang Ren, Lingfei Qian,
Xueqing Peng, Keyi Wang, Yi Han, Dongji Feng, Xiao-Yang Liu, Jimin Huang, Qianqian Xie
摘要
我们引入了 FinTagging,这是第一个全面覆盖、表格感知的XBRL基准,旨在评估大型语言模型(LLMs)在基于XBRL的财务报告背景下的结构化信息提取和语义对齐能力。与之前将XBRL标签过度简化为简单的多类分类且只关注叙述性文本的基准不同,FinTagging 将XBRL标签问题分解为两个子任务:FinNI 用于财务实体提取,以及 FinCL 用于分类法驱动的概念对齐。它要求模型同时在非结构化文本和结构化表格中联合提取事实并与完整的10k+ US-GAAP 分类法进行对齐,从而实现逼真细粒度的评估。我们在零样本设置下评估了一组多样化的 LLMs,系统地分析了它们在两个子任务上以及整体标签准确性方面的性能。我们的结果显示,尽管 LLMs 在信息提取方面表现出强大的泛化能力,但在细粒度的概念对齐方面存在困难,特别是在区分密切相关的分类法条目时。这些发现凸显了现有 LLMs 在完全自动化 XBRL 标签方面的局限性,并强调需要改进语义推理和模式感知建模,以满足准确财务披露的要求。代码可在我们的 GitHub 仓库获取,数据可在我们的 Hugging Face 仓库获取。
自动化标记对于通过将数字事实链接到标准化含义,从而将财务披露转换为机器可读数据至关重要。尽管XBRL格式被广泛采用,但准确地将每份报告中超过2,000个事实标记到超过10,000个分类概念仍然具有挑战性,每年都会发现数千个错误。在这项工作中,我们引入了 FinTagging,这是第一个专为评估大型语言模型在跨越文本和表格的全面范围XBRL标记能力而定制的基准。与将标记简化为在有限概念上的平面分类的先前基准不同,FinTagging 要求模型联合提取结构化财务事实,并将其与综合分类对齐。我们在零样本设置下,使用两个新的数据集(FinNI-eval 用于数值事实提取,FinCL-eval 用于概念链接),评估了十个最先进的模型。我们的结果表明,尽管一些模型在提取方面表现良好,但它们在精确的语义对齐方面遇到困难,特别是在低频概念上。一个统一的评估框架进一步揭示,如果没有结构化评估,模型经常产生无效输出。这些发现突显了通用大型语言模型在处理复杂财务标记方面的局限性,并强调了进行领域特定适应的必要性,而 FinTagging 为未来的财务文档理解研究提供了基础。