⏶135
AgentFly:在不微调 LLM 的情况下微调 LLM Agent
发表
由
taesiri 提交

作者:
Huichi Zhou,
Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang,
Ka Yiu Lee, Guchun Zhang, Kun Shao,
Linyi Yang, Jun Wang
摘要
本文介绍了一种新颖的自适应大型语言模型(LLM)代理学习范式,该范式无需对底层 LLM 进行微调。现有的方法要么是僵化的,依赖于静态、手工制作的反射工作流,要么是计算密集型的,需要对 LLM 模型参数进行梯度更新。相比之下,我们的方法通过基于内存的在线强化学习实现了低成本的持续适应。我们将此形式化为一个记忆增强马尔可夫决策过程(M-MDP),并配备了一个神经案例选择策略来指导动作决策。过去的经验存储在情境记忆中,可以是可微分的或非参数的。策略通过记忆重写机制根据环境反馈持续更新,而策略改进则通过高效的记忆读取(检索)来实现。我们将代理模型实例化在深度研究环境中,即 AgentFly,该模型在 GAIA 验证集上取得了 Top-1(87.88% Pass@3)和在测试集上取得了 79.40% 的成绩。在 DeepResearcher 数据集上,它达到了 66.6% 的 F1 和 80.4% 的 PM,优于基于训练的最先进方法,同时基于案例的记忆在分布外任务上增加了 4.7% 至 9.6% 的绝对分数。我们的方法为开发能够进行连续、实时学习而无需梯度更新的通用 LLM 代理提供了一条可扩展且高效的途径,推动机器学习朝着开放式技能获取和深度研究场景发展。代码可在 https://github.com/Agent-on-the-Fly/AgentFly 获取。
> 在本文中,我们为自适应大型语言模型(LLM)代理引入了一种新颖的学习范例,无需对底层 LLM 进行微调。现有方法通常要么僵化,依赖于静态、手工制作的反射工作流,要么计算密集,需要 LLM 模型参数的梯度更新。相比之下,我们的方法通过基于内存的在线强化学习实现低成本的持续适应。我们将此形式化为一个增强记忆的马尔可夫决策过程(M-MDP),该过程配备了神经案例选择策略来指导动作决策。过去的经验存储在情景记忆中,可以是可微分的或非参数的。策略基于环境反馈通过记忆重写机制持续更新,而策略改进则通过高效的记忆读取(检索)来实现。我们将我们的代理模型应用于深度研究场景,即 AgentFly,该模型在 GAIA 验证集上获得了 top-1(87.88% Pass@3),在测试集上达到了 79.40%。它在 DeepResearcher 数据集上达到了 66.6% 的 F1 和 80.4% 的 PM,优于最先进的基于训练的方法,而基于案例的记忆在分布外任务上增加了 4.7% 到 9.6% 的绝对点数。我们的方法提供了一种可扩展且高效的途径,用于开发能够持续、实时学习而无需梯度更新的通用 LLM 代理,将机器学习推向开放式技能获取和深度研究场景。