自生成的上下文示例改进用于顺序决策任务的 LLM 智能体

发表
Vishnu SarukkaiVishnu Sarukkai 提交
作者: Vishnu SarukkaiVishnu Sarukkai, Zhiqiang XieZhiqiang Xie, Kayvon FatahalianKayvon Fatahalian

摘要

许多改进用于序列决策任务的大型语言模型(LLM)代理的方法依赖于特定任务的知识工程——例如提示词调优、精心策划的上下文示例或定制的观察和行动空间。使用这些方法,代理的性能随着知识工程的质量或投入量而提高。相反,我们研究了LLM代理如何通过在上下文中从自身在类似任务上的成功经验中学习来自动提高性能。我们没有依赖于特定任务的知识工程,而是专注于构建和完善一个自生成的示例数据库。我们证明,即使是跨训练任务的成功轨迹的朴素积累也能提高在三个基准上的测试性能:ALFWorld(从73%提高到89%)、Wordcraft(从55%提高到64%)和InterCode-SQL(从75%提高到79%)——与初始代理在每个任务允许尝试两到三次时所达到的性能相当。然后,我们引入了两个扩展:(1)通过基于种群的训练进行的数据库级选择,以识别高性能的示例集合;(2)基于单个轨迹作为上下文示例的经验效用而保留它们的示例级选择。这些扩展进一步提升了性能,在ALFWorld上达到91%——与采用特定任务组件和提示词的更复杂方法相当。我们的结果表明,自动轨迹数据库构建为劳动密集型知识工程提供了一种引人注目的替代方案。
查看 arXiv 页面查看 PDF

评论

Vishnu SarukkaiVishnu Sarukkai
论文作者
论文提交者

本文研究了LLM智能体如何通过从它们自己在类似任务上的成功经验中进行上下文学习来自动提升其性能。