注意力盆地:为什么上下文定位在大型语言模型中很重要

发表
Zihao YiZihao Yi 提交
作者: Zihao YiZihao Yi, Delong Zeng, Zhenqing Ling, Luohh_SYSUHaohao Luo, Zhe Xu, Wei Liu, Jian Luan, Wanxia Cao, Ying Shen

摘要

大型语言模型(LLM)的性能对其输入信息在上下文中的位置高度敏感。为了探究这种位置偏差背后的机制,我们的大量实验揭示了一个一致的现象,我们称之为“注意力盆地”:当模型被呈现一系列结构化项目(例如,检索到的文档或少样本示例)时,它们系统性地将更高的注意力分配给序列的开头和结尾的项目,而忽视中间的项目。至关重要的是,我们的分析进一步揭示,将更高的注意力分配给关键信息是提高模型性能的关键。基于这些洞察,我们引入了“注意力驱动重排序”(AttnRank),这是一个两阶段框架,它(i)使用一个小的校准集估计模型固有的位置注意力偏好,以及(ii)重新排序检索到的文档或少样本示例,以使最显著的内容与这些高注意力位置对齐。AttnRank是一种与模型无关、无需训练且即插即用的方法,计算开销极小。在多跳问答和少样本情境学习任务上的实验表明,AttnRank在10个不同架构和规模的大型语言模型上都取得了显著的改进,而无需修改模型参数或训练过程。
查看 arXiv 页面查看 PDF

评论

Zihao YiZihao Yi
论文作者
论文提交者

这项工作对大型语言模型(LLM)行为中一个微妙而重要的挑战——位置偏差,进行了令人信服且有条不紊的探索。对“注意力盆地”(attention basin)现象——模型系统性地倾向于关注结构化输入序列的开头和结尾,而忽略中间部分——的识别和特征描述,感觉就像揭示了这些模型处理信息方式中一个基本但以前未被充分认识的怪癖。它与许多人可能遇到但尚未正式理解的实际观察结果产生了强烈共鸣。注意力分配的提高与模型性能的改善之间建立的关键联系,为采取干预措施提供了明确的动力。