文档引用归属:使用大型语言模型研究引用关系

发表
Franck DernoncourtFranck Dernoncourt 提交
作者: Vipula Rawte, Ryan A. RossiRyan A. Rossi, Franck DernoncourtFranck Dernoncourt, Nedim Lipka

摘要

随着大型语言模型(LLMs)越来越多地应用于基于文档的任务——例如文档摘要、问答和信息提取——其中用户需求侧重于从提供的文档中检索信息而非依赖模型参数知识,确保这些系统的可信度和可解释性已成为关键问题。解决这一挑战的一个核心方法是归因,它涉及将生成的输出追溯到其来源文档。然而,由于 LLMs 可能会产生不准确或不精确的响应,评估这些引用的可靠性至关重要。为了解决这个问题,我们的工作提出了两种技术。(1) 一种零样本方法,将归因框定为一个直接的文本蕴含任务。我们使用 flan-ul2 的方法在 AttributionBench 的 ID 和 OOD 数据集上分别比最佳基线提高了 0.27% 和 2.4%。(2) 我们还探讨了注意力机制在增强归因过程中的作用。使用较小的 LLM flan-t5-small,除了第 4 层和第 8 到 11 层之外,F1 分数几乎在所有层上都优于基线。
查看 arXiv 页面查看 PDF

评论

Franck DernoncourtFranck Dernoncourt
论文作者
论文提交者
此评论已隐藏。