⏶1
大语言模型能否从真实世界的文本中推断出因果关系?
发表
由
Aman Chadha 提交

作者: Ryan Saklad,
Aman Chadha, Oleg Pavlov, Raha Moraffah

摘要
理解和推断文本中的因果关系是人类认知的一个核心方面,对于推动大型语言模型 (LLMs) 朝着通用人工智能发展至关重要。现有工作主要侧重于合成生成的文本,这些文本包含文本中明确提及的简单因果关系。这未能反映现实世界任务的复杂性。在本文中,我们研究 LLMs 是否能够从现实世界的文本中推断因果关系。我们构建了一个来自现实世界学术文献的基准数据集,其中包含在长度、关系的复杂性(不同程度的明确性、事件数量和因果关系)以及领域和子领域方面具有多样性的文本。据我们所知,我们的基准是第一个用于此任务的现实世界数据集。我们对最先进的LLMs在我们提出的基准上进行的实验表明存在重大挑战,表现最好的模型平均F1分数仅为0.477。分析揭示了常见困难:在处理隐含陈述的信息方面存在困难,在将相关的因果因素与周围的上下文细节区分开来方面存在困难,以及在连接分散在冗长文本段落中的因果相关信息方面存在困难。通过系统地描述这些不足,我们的基准为进一步研究和推进 LLMs 的因果推理能力提供了有针对性的见解。
这篇论文介绍了 ReCAST,这是第一个用于评估大型语言模型(LLMs)从长篇真实世界学术文本中推断复杂逼真因果图的能力的基准测试。结果显示,最先进的模型在此条件下未能表现出稳健的因果推理能力。详情如下:
引入 ReCAST: 这是第一个明确设计用于评估大型语言模型从长篇真实世界文本(主要是经济学文献)构建复杂因果图能力的基准测试,旨在填补先前合成和浅层文本基准测试的空白。
真实的数据集构建流程: 一个严格的 3 阶段流程(收集、标注、后处理)生成高保真度的图文对,其中包括人类专家标注、大型语言模型辅助规范化以及严格的格式标准,以确保语义准确性和可复现性。
从叙述性文本中提取因果图: 与先前侧重于成对或句子级因果关系的工作不同,ReCAST 要求从非结构化、自然书写的学术文本中提取多节点因果网络,这是一个显著更难、更真实的挑战。
大型语言模型作为评估者的评估框架: 一种新颖的自动化评估方法,其中大型语言模型使用语义相似性、抽象对齐和关系正确性来评估生成的图,从而实现比僵化的结构或基于标记的比较更细致的评分。
混淆程度作为难度指标: 引入一个量化隐含性的指标,衡量文本中未明确提及的图节点数量,这可以预测大型语言模型的失败并作为独特的分析维度。
名称辅助图构建消融实验: 一种诊断设置,其中为大型语言模型提供了所有真实节点的名称,将因果推理与实体提取隔离开来。结果显示仅有微小改进,证实因果推理是主要性能瓶颈。
广泛的多因素错误分析: 经验研究表明,大型语言模型的失败是由于无法整合分散信息、抽象因果路径或避免幻觉,特别是当因果关系是隐含的、多跳的或嵌入在特定领域术语中时。