⏶40
迷失在中间:语言模型如何使用长上下文
07月06日发表
04月12日由
AK 提交

作者: Nelson F. Liu,
Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang
摘要
虽然最近的语言模型已经能够接受长上下文作为输入,但对于语言模型如何有效利用更长的上下文,我们知之甚少。我们分析了语言模型在两项任务上的性能,这两项任务都需要识别输入上下文中的相关信息:多文档问答和键值检索。我们发现,当相关信息出现在输入上下文的开头或结尾时,性能通常最高,而当模型必须访问长上下文中部的相关信息时,性能会显著下降。此外,即使是显式的长上下文模型,随着输入上下文变得更长,性能也会大幅下降。我们的分析更好地理解了语言模型如何使用其输入上下文,并为未来的长上下文模型提供了新的评估协议。
评论
当前语言模型如何处理长上下文:关键见解
链接 🔗:
👉 订阅: https://www.youtube.com/@Arxflix
👉 推特: https://x.com/arxflix
👉 LMNT (合作伙伴): https://lmnt.com/
作者:Arxflix
@librarian-bot 推荐