⏶142
面向 LLM 的代理强化学习景观:一篇调查报告
发表
由
Zhou Heng 提交
作者: Guibin Zhang, Hejia Geng,
Xiaohang Yu,
Zhenfei Yin, Zaibin Zhang,
Zelin Tan,
Heng Zhou, Zhongzhi Li, Xiangyuan Xue,
Yijiang Li,
Yifan Zhou, Yang Chen, Chen Zhang, Yutao Fan, Zihu Wang, Songtao Huang, Yue Liao, Hongru Wang, Mengyue Yang, Heng Ji, Michael Littman, Jun Wang, Shuicheng Yan, Philip Torr, Lei Bai



摘要
Agentic强化学习(Agentic RL)的出现标志着从应用于大型语言模型(LLM RL)的传统强化学习范式发生了转变,将LLM从被动的序列生成器转变为嵌入复杂、动态世界中的自主决策代理。本调查通过对比LLM-RL的退化单步马尔可夫决策过程(MDP)与定义Agentic RL的时序扩展、部分可观测马尔可夫决策过程(POMDP),形式化了这一概念性转变。在此基础上,我们提出了一个全面的双重分类法:一个围绕核心代理能力组织,包括规划、工具使用、记忆、推理、自我改进和感知;另一个围绕它们在不同任务领域中的应用。我们论文的核心在于,强化学习是实现这些能力从静态、启发式模块向适应性、鲁棒的代理行为转型的关键机制。为了支持和加速未来的研究,我们将开源环境、基准和框架的现状整合到一个实用指南中。通过综合五百多项近期研究,本调查勾勒了这一快速发展领域的轮廓,并突出了将塑造可扩展、通用AI代理发展的机遇和挑战。
本次调查梳理了具身强化学习(Agentic Reinforcement Learning,Agentic RL)的出现,这是一种将大型语言模型(LLMs)从被动的文本生成器提升为置身于复杂、动态世界中的自主决策代理的范式。我们的旅程始于对这一概念性转变的正式化,区分了表征具身 RL 的时间延伸且部分可观测的马尔可夫决策过程(POMDPs)与传统 LLM-RL 的单步决策过程。在此基础上,我们构建了一个全面的、双重的分类法,以系统地映射该领域:一个以核心具身能力(规划、工具使用、记忆、推理、自我改进、感知等)为中心,另一个则关注其在多样化任务领域的应用。在整个分析过程中,我们的核心论点一直是,强化学习为将这些能力从静态、启发式模块转化为适应性强、鲁棒的具身行为提供了关键机制。通过整合开源环境、基准测试和框架的景观,我们还提供了一个实用的指南,以巩固和加速这一新兴领域的未来研究。