迷失在中间:语言模型如何使用长上下文

07月06日发表
04月12日由 AKAK 提交
作者: Nelson F. Liu, Kevin LinKevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang

摘要

虽然最近的语言模型已经能够接受长上下文作为输入,但对于语言模型如何有效利用更长的上下文,我们知之甚少。我们分析了语言模型在两项任务上的性能,这两项任务都需要识别输入上下文中的相关信息:多文档问答和键值检索。我们发现,当相关信息出现在输入上下文的开头或结尾时,性能通常最高,而当模型必须访问长上下文中部的相关信息时,性能会显著下降。此外,即使是显式的长上下文模型,随着输入上下文变得更长,性能也会大幅下降。我们的分析更好地理解了语言模型如何使用其输入上下文,并为未来的长上下文模型提供了新的评估协议。

评论

Sayantan DasSayantan Das

@librarian-bot 推荐

Julien BLANCHONJulien BLANCHON
当前语言模型如何处理长上下文:关键见解

https://cdn-uploads.huggingface.co/production/uploads/6186ddf6a7717cb375090c01/vmWyvQLrgGYjljXlD9zof.mp4

链接 🔗:

👉 订阅: https://www.youtube.com/@Arxflix

👉 推特: https://x.com/arxflix

👉 LMNT (合作伙伴): https://lmnt.com/

作者:Arxflix

9t4iCUHx_400x400-1.jpg