多跳问答中的掩码:语言模型在上下文排列变化下的表现分析

发表
Wenyu HuangWenyu Huang 提交
作者: Wenyu HuangWenyu Huang, Pavlos VPavlos Vougiouklis, Mirella Lapata, Jeff Z. Pan

摘要

多跳问答 (MHQA) 为问答增加了多层复杂性,使其更具挑战性。当语言模型 (LM) 收到多个搜索结果提示时,它们的任务不仅是检索相关信息,还需要跨信息源进行多跳推理。虽然 LM 在传统问答任务中表现良好,但因果掩码可能会阻碍其跨复杂上下文进行推理的能力。在本文中,我们通过在各种配置下排列搜索结果(检索到的文档)来探索 LM 如何响应多跳问题。我们的研究揭示了以下有趣的发现:1) 编码器-解码器模型,例如 Flan-T5 系列中的模型,在 MHQA 任务中通常优于因果自回归解码器模型,尽管其规模显著较小;2) 改变黄金文档的顺序,揭示了 Flan T5 模型和微调的自回归解码器模型中不同的趋势,当文档顺序与推理链顺序对齐时观察到最佳性能;3) 通过修改因果掩码,使用双向注意力增强因果自回归解码器模型可以有效提升其最终性能。除了上述内容,我们还对 MHQA 上下文中 LM 注意力权重的分布进行了彻底调查。我们的实验表明,当最终答案正确时,注意力权重往往会达到更高的峰值。我们利用这一发现来启发式地改进 LM 在此任务上的性能。我们的代码已公开在 https://github.com/hwy9855/MultiHopQA-Reasoning
查看 arXiv 页面查看 PDF

评论

Wenyu HuangWenyu Huang
论文作者
论文提交者

论文:https://arxiv.org/abs/2505.11754
代码:https://github.com/hwy9855/MultiHopQA-Reasoning