通过端到端基于摘要的上下文管理来扩展 LLM 多轮强化学习

发表
Weiwei SunWeiwei Sun 提交
作者: Miao Lu, Weiwei Sun, Weihua Du, Zhan Ling, Xuesong Yao, Kang Liu, Jiecao Chen

摘要

AI 生成总结
基于摘要的强化学习上下文管理,可以对大型语言模型代理进行微调,以实现长时限工具的使用,从而提高成功率和可扩展性,超越了固定上下文的限制。
我们研究用于长时多轮工具使用的大型语言模型 (LLM) 代理的强化学习 (RL) 微调,其中上下文长度很快成为根本性的瓶颈。现有的 RL 管道可能会出现指令遵循能力下降、过多的滚动成本以及最重要的是严格的上下文限制。为了应对这些挑战,我们在训练中引入了基于摘要的上下文管理。具体来说,它通过 LLM 生成的摘要定期压缩工具使用历史,这些摘要保留了与任务相关的信息,从而保持紧凑的上下文,同时使代理能够扩展到固定上下文窗口之外。基于这种表述,我们推导出一个策略梯度表示,该表示可以无缝地使标准的 LLM RL 基础设施能够以端到端的方式优化工具使用行为和摘要策略。我们通过 SUmmarization augmented Policy Optimization (SUPO) 来实例化这个框架,SUPO 是一种 LLM RL 算法,它能够进行超出固定上下文限制的长时训练。在交互式函数调用和搜索任务上的实验表明,与基线相比,SUPO 在保持相同甚至更低的工作上下文长度的同时,显著提高了成功率。我们还表明,对于复杂的搜索任务,当测试时摘要的最大轮次超过训练时摘要的最大轮次时,SUPO 可以进一步提高评估性能。我们的结果确立了基于摘要的上下文管理作为一种原则性和可扩展的方法,用于训练超出固定上下文长度限制的 RL 代理。
查看 arXiv 页面查看 PDF

评论

Weiwei SunWeiwei Sun
论文提交者

https://arxiv.org/pdf/2510.06727