长上下文语言模型的可控测试

发表
Yijun YANGYijun YANG 提交
作者: Yijun YANGYijun Yang, Zeyu Huang, Wenhao ZhuWenhao Zhu, Zihan QiuZihan Qiu, Fei Yuan, Jeff Z. Pan, Ivan TitovIvan Titov

摘要

现有评估长上下文语言模型 (LCLM) 的框架大致可分为真实世界任务和合成任务。尽管它们都有用,但两种方法都伴随着某些固有的局限性。真实世界任务过于复杂,难以解释或表征,并且容易受到数据污染。相比之下,合成任务通常采用“大海捞针”(NIAH)格式,其中“针”和“干草堆”之间缺乏连贯性,这损害了它们作为真实应用代理的有效性。为了应对这些挑战,我们提出一个理想的长上下文评估框架应具有三个基本特征:无缝上下文、可控设置和可靠评估。本研究引入了 LongBioBench,这是一个新颖的基准测试,它利用人工生成的传记作为受控环境,从理解、推理和可信度等维度评估 LCLM。我们的实验评估(总共包括 18 个 LCLM)表明,大多数模型在对检索到的结果进行语义理解和基本推理方面仍然存在不足,并且随着上下文长度的增加,其可信度降低。我们进一步的分析表明,现有合成基准采用的一些设计选择,例如上下文非连贯性、数值“针”以及缺乏干扰物,使得它们在测试模型长上下文能力方面显得脆弱。此外,我们还揭示了长上下文持续预训练主要通过调整 RoPE 嵌入来适应扩展的上下文长度。总而言之,与之前的合成基准相比,LongBioBench 在模拟真实语言任务和保持可控性之间实现了更好的权衡,并且具有高度可解释性和可配置性。
查看 arXiv 页面查看 PDF

评论

Yijun YANGYijun YANG
论文作者
论文提交者

对长上下文语言模型的可控探究

🏠 Github: https://github.com/Thomasyyj/LongBio-Benchmark