用于 LLM 代理强化学习的树搜索

发表
xiaochonglinghuxiaochonglinghu 提交
作者: Yuxiang JiYuxiang Ji, Ziyu Ma, Yong Wang, Guanhua Chen, Xiangxiang Chu, Liaoni Wu

摘要

AI 生成总结
基于树的 Group Relative Policy Optimization (Tree-GRPO) 通过使用树搜索来改进 rollout 并估计分组相对优势,从而增强了大型语言模型的强化学习,优于基于链的方法。
强化学习(RL)的最新进展显著增强了大型语言模型(LLMs)的代理能力。在长期和多轮代理任务中,现有仅由结果奖励驱动的方法通常会受到稀疏监督问题的困扰。为了解决这一挑战,我们提出了基于树搜索的群组代理RL方法Tree-GRPO,其中每个树节点代表完整的代理交互步骤。通过共享公共前缀,树搜索采样增加了在固定token或工具调用预算内可实现的rollout数量。此外,我们发现树状轨迹自然地允许构建逐步过程监督信号,即使仅使用结果奖励。在此基础上,Tree-GRPO在树内和树间级别估计群组相对优势。通过理论分析,我们证明了树内级别群组相对策略优化的目标等同于步级别直接偏好学习的目标。在11个数据集和3种QA任务上的实验证明了所提出的基于树的RL优于基于链的RL方法。
查看 arXiv 页面查看 PDF

评论

xiaochonglinghuxiaochonglinghu
论文提交者

https://github.com/AMAP-ML/Tree-GRPO

Yury PanikovYury Panikov

很有趣,谢谢