Agentic Context Engineering:用于自我改进语言模型的动态上下文

发表
taesiritaesiri 提交
作者: Qizheng ZhangQizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu HongFenglu Hong, Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, Urmish Thakker, James Zou, Kunle Olukotun

摘要

AI 生成总结
ACE,一个自适应上下文工程框架,通过结构化更新来保留详细知识,从而增强 LLM 应用,在代理和领域特定任务中优于基线,并且减少了适应成本。
大型语言模型(LLM)应用程序,如代理和领域特定的推理,越来越多地依赖于上下文适应——通过指令、策略或证据修改输入,而不是权重更新。现有方法提高了可用性,但常常受限于简洁性偏差(为了简洁的摘要而丢失领域见解)和上下文崩溃(迭代重写会随着时间的推移而侵蚀细节)。基于 Dynamic Cheatsheet 引入的自适应内存,我们推出了 ACE(Agentic Context Engineering),这是一个将上下文视为不断演变的游戏手册的框架,它通过生成、反思和策划的模块化过程来积累、完善和组织策略。ACE 通过结构化的、渐进式的更新来防止崩溃,这些更新保留了详细的知识并与长上下文模型一起扩展。在代理和领域特定基准上,ACE 离线(例如,系统提示)和在线(例如,代理内存)优化上下文,一致地优于强大的基线:在代理上提高 10.6%,在金融领域提高 8.6%,同时显著降低了适应延迟和上线成本。值得注意的是,ACE 可以在没有标记监督的情况下进行有效适应,而是利用自然的执行反馈。在 AppWorld 排行榜上,ACE 在整体平均水平上与排名最高的生产级代理相当,并且在更难的测试挑战分组上超越了它,尽管使用了较小的开源模型。这些结果表明,全面、不断发展的上下文能够实现可扩展、高效且自优化的 LLM 系统,且开销很低。
查看 arXiv 页面查看 PDF

评论

taesiritaesiri
论文提交者

大型语言模型(LLM)应用,如代理和领域特定推理,越来越多地依赖于上下文适应——通过指令、策略或证据来修改输入,而不是进行权重更新。以往的方法提高了可用性,但常常受到简洁性偏差的影响,即为了简洁的摘要而丢失领域见解,以及上下文崩溃的影响,即迭代重写会随着时间的推移而侵蚀细节。基于 Dynamic Cheatsheet 引入的自适应记忆,我们提出了 ACE(Agentic Context Engineering),一个将上下文视为不断演变的手册的框架,通过生成、反思和策划的模块化过程来累积、完善和组织策略。ACE 通过结构化的、渐进式的更新来防止崩溃,这些更新可以保留详细的知识并随着长上下文模型而扩展。在代理和领域特定基准上,ACE 在离线(例如,系统提示)和在线(例如,代理记忆)方面优化了上下文,在代理方面持续优于强大的基线 +10.6%,在金融方面优于 +8.6%,同时显著降低了适应延迟和部署成本。值得注意的是,ACE 可以在没有标记监督的情况下有效适应,而是利用自然的执行反馈。在 AppWorld 排行榜上,ACE 在总体平均水平上与排名靠前的生产级代理相匹配,并且在更难的测试挑战分组上超越了它,尽管使用的是较小的开源模型。这些结果表明,全面、不断演变的上下文能够实现可扩展、高效且自改进的 LLM 系统,并且开销很低。

Jonathan BejaranoJonathan Bejarano

感谢包含了生成器和反射器代码的提示。我可以看到将细化分解为单独的步骤非常有帮助。我正在考虑,也可以很容易地修改以查看来自 MCP 服务器的评估。