⏶19
LayerCake:大型语言模型层内的词元感知对比解码
发表
由
Yongliang 提交
作者: Jingze Zhu, Yongliang Wu, Wenbo Zhu, Jiawang Cao, Yanqiang Zheng, Jiawei Chen, Xu Yang, Bernt Schiele, Jonas Fischer, Xinting Hu
摘要
大型语言模型(LLM)擅长自然语言理解和生成,但容易出现事实性错误,这限制了它们在知识密集型任务中的可靠性。尽管解码时策略提供了一种无需训练的高效解决方案,但现有方法通常孤立地处理词元(token)级和层级的信号,忽略了它们之间的联合动态关系。在这项工作中,我们提出了一种能感知词元、定位层级的对比解码方法,该方法将特定类型的词元与其最具影响力的 Transformer 层对齐,以提高生成内容的事实性。通过对注意力的实证分析,我们识别出两种关键模式:标点符号词元在早期层获得主导性注意力,而概念性词元在中间层主导语义推理。通过在这些词元各自对应的层深度选择性地抑制其注意力,我们成功地诱导出可控的事实性退化,并从中获得对比信号,用以指导最终的事实性解码。我们的方法无需额外训练或修改模型,实验证明,该方法在多种大型语言模型和各类基准上都能持续提升事实性。
大型语言模型(LLM)在自然语言理解和生成方面表现出色,但容易出现事实性错误,这限制了它们在知识密集型任务中的可靠性。尽管解码时策略提供了一种无需训练的高效解决方案,但现有方法通常孤立地处理词元级(token-level)和层级(layer-level)信号,忽略了它们之间的联合动态关系。在这项工作中,我们提出了一种感知词元、层级定位的对比解码方法,该方法将特定类型的词元与其最具影响力的 Transformer 层对齐,以提高事实性内容的生成质量。通过实证注意力分析,我们识别出两种关键模式:标点符号词元在早期层中获得主导注意力,而概念性词元在中间层中主导语义推理。通过在各自深度有选择地抑制对这些词元类型的注意力,我们实现了可控的事实性降级,并导出对比信号来指导最终的事实性解码。我们的方法无需额外训练或修改模型,实验证明,该方法在多个 LLM 和各种基准测试中都能持续提高事实准确性。