⏶14
记忆即行动:面向长距离代理任务的自主上下文策划
发表
由
Yuxiang Zhang 提交
作者:
Yuxiang Zhang, Jiangming Shu, Ye Ma, Xueyuan Lin,
Shangxi Wu, Jitao Sang
摘要
大型语言模型在长期代理任务中面临挑战,因为它们有限的内存很容易被分散或不相关的内容所淹没。现有的工作记忆方法通常依赖于外部的、启发式机制,这些机制与代理的核心策略是解耦的。在这项工作中,我们将工作记忆管理重新定义为一种可学习的内在能力。我们提出了一种新颖的框架,Memory-as-Action(记忆即行动),在该框架中,代理通过执行明确的编辑操作作为统一策略的一部分来主动管理其工作记忆。这种方法允许通过强化学习进行训练的代理在给定资源限制下,在记忆的策展和长期任务目标之间进行权衡。然而,这种记忆编辑操作打破了 LLM 交互中连续增长的前缀的标准假设,导致了我们称之为“轨迹断裂”的现象。这些非前缀变化破坏了标准策略梯度方法所需的因果连续性,使得这些方法不适用。为了解决这个问题,我们提出了一种新算法 Dynamic Context Policy Optimization(动态上下文策略优化),通过在内存操作点分割轨迹并将轨迹级优势应用于由此产生的动作段,从而实现稳定的端到端强化学习。我们的结果表明,以端到端的方式联合优化任务推理和记忆管理,不仅降低了总体计算消耗,而且由于针对模型内在能力量身定制的自适应上下文策展策略,还提高了任务性能。
大型语言模型在长时程代理任务中面临挑战,因为它们受限的内存很容易被分散注意力或不相关的内容淹没。
现有的工作记忆方法通常依赖于与代理核心策略脱钩的外部、启发式机制。在这项工作中,我们将工作记忆管理重新构建为一种可学习的内在能力。我们提出了一种新颖的框架,称为“内存即行动”(Memory-as-Action),其中代理通过执行显式的编辑操作作为统一策略的一部分来主动管理其工作记忆。
这种表述允许通过强化学习训练的代理在给定的资源限制下,在内存整理和长期任务目标之间取得平衡。然而,这种内存编辑操作打破了 LLM 交互中持续增长的前缀的标准假设,导致了我们称之为“轨迹断裂”(trajectory fractures)的问题。这些非前缀变化破坏了标准策略梯度方法所需的因果连续性,使得这些方法无法应用。
为了解决这个问题,我们提出了一种新算法——动态上下文策略优化(Dynamic Context Policy Optimization),该算法通过在内存操作点分割轨迹并将轨迹级优势应用于由此产生的动作段,从而实现稳定的端到端强化学习。我们的结果表明,以端到端的方式联合优化任务推理和内存管理,不仅减少了整体计算消耗,而且还通过针对模型内在能力的自适应上下文整理策略提高了任务性能。