Sculptor: 通过主动上下文管理赋予LLM认知代理能力

发表
Mo LiMo Li 提交
作者: Mo LiMo Li, L. H. Xu, Qitai Tan, Ting Cao, Yunxin Liu

摘要

大型语言模型(LLM)在处理长上下文时会因主动干扰而导致性能显著下降,其中上下文中较早部分的不相关信息会扰乱推理和记忆回忆。虽然大多数研究集中于外部记忆系统以增强 LLM 的能力,但我们提出了一种互补的方法:赋予 LLM 主动上下文管理(ACM)工具,以主动塑造其内部工作记忆。我们引入了 Sculptor,一个为 LLM 配备三类工具的框架:(1)上下文碎片化,(2)总结、隐藏和恢复,以及(3)智能搜索。我们的方法使 LLM 能够主动管理其注意力和工作记忆,类似于人类选择性地关注相关信息同时过滤掉干扰。在信息稀疏基准测试——PI-LLM(主动干扰)和 NeedleBench Multi-Needle Reasoning——上的实验评估表明,Sculptor 即使没有特定训练也能显著提高性能,利用了 LLM 固有的工具调用泛化能力。通过启用主动上下文管理,Sculptor 不仅减轻了主动干扰,还为跨多样化长上下文任务的更可靠推理提供了认知基础——强调了明确的上下文控制策略,而不仅仅是更大的令牌窗口,是实现大规模鲁棒性的关键。
查看 arXiv 页面查看 PDF
Sculptor: 通过主动上下文管理赋予LLM认知代理能力

评论

Mo LiMo Li
论文作者
论文提交者

我们的工作解决了大型语言模型(LLMs)在处理长上下文时面临的挑战,即简单地扩大上下文窗口并非完整解决方案,反而可能导致位置偏差、信息过载和普遍干扰等性能问题。我们专注于如何缓解这些问题,特别是“主动干扰”,即较旧的、不相关的信息干扰当前推理。为了解决这个问题,我们引入了Sculptor框架,其核心思想是我们称之为“主动上下文管理(ACM)”。该框架不是让模型被动处理所有信息,而是为其提供一个工具包,使其能够主动“雕塑”和管理自己的工作记忆——例如,通过折叠不相关的段落以减少噪声,或在需要时进行快速搜索。我们对PI-LLM和NeedleBench等基准进行的初步实验证明了这种方法的有效性,表明赋予模型明确的上下文控制能力是实现更可靠的长上下文推理的一个有前景的补充方向。