EPO:熵正则化策略优化用于 LLM 智能体强化学习

发表
Zhenting WangZhenting Wang 提交
作者: Wujiang XuXu Wujiang, Wentian Zhao, Zhenting WangZhenting Wang, Li Yu-Jhe, Jin Can, Mingyu JinJin Mingyu, KaiMeiMei Kai, Kun WanWan Kun, Metaxas Dimitris

摘要

AI 生成总结
Entropy-regularized Policy Optimization (EPO) 解决了稀疏奖励的多轮环境中的探索-利用挑战,从而在 ScienceWorld 和 ALFWorld 等任务中提高了性能。
在稀疏奖励的多轮环境中训练 LLM 代理,其中完成单个任务需要在一个回合中进行 30 多个回合的交互,这给强化学习带来了根本性的挑战。我们识别出一种在这种设置下特有的关键故障模式:探索-利用级联故障。这种级联始于早期策略的过早收敛,此时稀疏的反馈导致代理采用有缺陷的、低熵策略。随后,代理进入后期策略崩溃,此时传统的熵正则化会适得其反,导致混乱的探索,从而使训练不稳定。我们提出了熵正则化策略优化 (EPO),这是一个通用框架,通过三种协同机制打破了这种故障循环:(1)在多轮环境中采用熵正则化以增强探索;(2)一种熵平滑正则化器,将策略熵限制在历史平均值内,以防止剧烈波动;(3)基于自适应阶段的加权,在训练中平衡探索和利用。我们的分析表明,EPO 在保持收敛性的同时,保证了熵方差单调递减。EPO 在 ScienceWorld 上的性能提高了 152%,在 ALFWorld 上的性能提高了 19.8%。我们的工作表明,多轮稀疏奖励设置需要与传统 RL fundamentally 不同的熵控制,这对 LLM 代理训练具有广泛的影响。
查看 arXiv 页面查看 PDF

评论

Zhenting WangZhenting Wang
论文作者
论文提交者

在多轮环境中稀疏奖励的 LLM 智能体训练,其中完成单个任务需要在一个回合中进行 30 多轮交互,这对强化学习提出了根本性挑战。我们识别出该设置特有的一个关键故障模式:探索-利用级联故障。这种级联始于早期策略的过早收敛,稀疏反馈导致智能体固守有缺陷、低熵的策略。随后,智能体进入后期策略崩溃,此时常规的熵正则化变得适得其反,助长了破坏训练的混乱探索。我们提出了熵正则化策略优化 (EPO),这是一个通用框架,通过三个协同机制打破了这种故障循环:(1) 在多轮设置中采用熵正则化以增强探索,(2) 一个熵平滑正则器,将策略熵限制在历史平均值范围内以防止突然波动,以及 (3) 自适应阶段加权,在整个训练过程中平衡探索与利用。我们的分析证明 EPO 保证了单调递减的熵方差,同时保持了收敛性。EPO 在 ScienceWorld 上实现了高达 152% 的性能提升,在 ALFWorld 上实现了高达 19.8% 的性能提升。我们的工作表明,多轮稀疏奖励设置需要与传统 RL 完全不同的熵控制,这对 LLM 智能体训练具有广泛影响。