AgentFly:在不微调 LLM 的情况下微调 LLM Agent

发表
taesiritaesiri 提交
作者: HuichiZhouHuichi Zhou, Yihang ChenYihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu LeeKa Yiu Lee, Guchun Zhang, Kun Shao, Linyi YangLinyi Yang, Jun Wang

摘要

本文介绍了一种新颖的自适应大型语言模型(LLM)代理学习范式,该范式无需对底层 LLM 进行微调。现有的方法要么是僵化的,依赖于静态、手工制作的反射工作流,要么是计算密集型的,需要对 LLM 模型参数进行梯度更新。相比之下,我们的方法通过基于内存的在线强化学习实现了低成本的持续适应。我们将此形式化为一个记忆增强马尔可夫决策过程(M-MDP),并配备了一个神经案例选择策略来指导动作决策。过去的经验存储在情境记忆中,可以是可微分的或非参数的。策略通过记忆重写机制根据环境反馈持续更新,而策略改进则通过高效的记忆读取(检索)来实现。我们将代理模型实例化在深度研究环境中,即 AgentFly,该模型在 GAIA 验证集上取得了 Top-1(87.88% Pass@3)和在测试集上取得了 79.40% 的成绩。在 DeepResearcher 数据集上,它达到了 66.6% 的 F1 和 80.4% 的 PM,优于基于训练的最先进方法,同时基于案例的记忆在分布外任务上增加了 4.7% 至 9.6% 的绝对分数。我们的方法为开发能够进行连续、实时学习而无需梯度更新的通用 LLM 代理提供了一条可扩展且高效的途径,推动机器学习朝着开放式技能获取和深度研究场景发展。代码可在 https://github.com/Agent-on-the-Fly/AgentFly 获取。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

> 在本文中,我们为自适应大型语言模型(LLM)代理引入了一种新颖的学习范例,无需对底层 LLM 进行微调。现有方法通常要么僵化,依赖于静态、手工制作的反射工作流,要么计算密集,需要 LLM 模型参数的梯度更新。相比之下,我们的方法通过基于内存的在线强化学习实现低成本的持续适应。我们将此形式化为一个增强记忆的马尔可夫决策过程(M-MDP),该过程配备了神经案例选择策略来指导动作决策。过去的经验存储在情景记忆中,可以是可微分的或非参数的。策略基于环境反馈通过记忆重写机制持续更新,而策略改进则通过高效的记忆读取(检索)来实现。我们将我们的代理模型应用于深度研究场景,即 AgentFly,该模型在 GAIA 验证集上获得了 top-1(87.88% Pass@3),在测试集上达到了 79.40%。它在 DeepResearcher 数据集上达到了 66.6% 的 F1 和 80.4% 的 PM,优于最先进的基于训练的方法,而基于案例的记忆在分布外任务上增加了 4.7% 到 9.6% 的绝对点数。我们的方法提供了一种可扩展且高效的途径,用于开发能够持续、实时学习而无需梯度更新的通用 LLM 代理,将机器学习推向开放式技能获取和深度研究场景。

Yihang ChenYihang Chen
论文作者

我们正在开源我们项目的最小、可运行的核心。我们将很快逐步发布我们无参数和有参数的案例推理代码。

Harsha Narayana PHarsha Narayana P

很棒的项目。请提供实现 🥺

x32x32

您的基线比较使用了 Qwen2.5 (7B),而 Memento 则使用了 GPT-4.1 + o4-mini。这代表了巨大的能力和成本差异,使得很难评估性能提升是来自您的记忆机制还是仅仅使用了更强大的基础模型。您能否提供在所有方法中使用相同基础模型的实验结果,以分离出您方法的贡献?

Yury PanikovYury Panikov

谢谢!看起来非常有趣,想试试