⏶3
通过上下文折叠扩展长视界 LLM 代理
发表
由
Weiwei Sun 提交
作者: Weiwei Sun, Miao Lu, Zhan Ling, Kang Liu, Xuesong Yao, Yiming Yang, Jiecao Chen
摘要
AI 生成总结
Context-Folding 是一种端到端的强化学习框架,通过将子任务分支并折叠,使 LLM 代理能够有效地管理上下文,在长时限任务中表现优于基线模型,并减小了上下文大小。大型语言模型 (LLM) 代理在长时任务中受到上下文长度的根本性限制。我们引入了上下文折叠 (Context-Folding) 框架,该框架使代理能够主动管理其工作上下文。代理可以程序化地分支到子轨迹以处理子任务,然后在完成时将其折叠,在保留简洁结果摘要的同时折叠中间步骤。为了使这种行为可学习,我们开发了一个端到端的强化学习框架 FoldGRPO,其中包含特定的过程奖励,以鼓励有效的任务分解和上下文管理。在复杂的长时任务(Deep Research 和 SWE)上,我们的折叠代理在上下文使用量小10倍的情况下,性能与 ReAct 基线相当或更优,并且显著优于依赖基于摘要的上下文管理的模型。
https://arxiv.org/pdf/2510.11967