通过轮级信用分配强化LLM智能体的多轮推理能力

发表
Quan WeiQuan Wei 提交
作者: Siliang Zeng, Quan WeiQuan Wei, William Brown, Oana Frunza, Yuriy Nevmyvaka, Mingyi HongMingyi Hong

摘要

本文研究了使用强化学习(RL)增强大型语言模型(LLM)代理的推理能力的方法。具体而言,我们专注于多轮工具使用的场景,这些场景可以自然地建模为马尔可夫决策过程(MDP)。虽然现有方法通常在多臂赌博机设置中通过轨迹级优势估计来训练多轮LLM代理,但它们在跨多个决策步骤的轮级信用分配方面存在困难,限制了它们在多轮推理任务上的性能。为了解决这个问题,我们引入了一种细粒度的轮级优势估计策略,以在多轮代理交互中实现更精确的信用分配。该策略是通用的,可以整合到各种RL算法中,例如群组相对偏好优化(GRPO)。我们在使用GRPO实现的多轮推理和基于搜索的工具使用任务上的实验评估突出显示了MDP框架和轮级信用分配在复杂决策设置中提升LLM代理多轮推理能力的有效性。我们的方法在工具执行方面达到了100%的成功率,在精确答案匹配方面达到了50%的准确率,显著优于基线方法,后者未能调用工具且精确匹配准确率仅为20-30%。
查看 arXiv 页面查看 PDF

评论

Quan WeiQuan Wei
论文作者
论文提交者

代码可在以下地址获取: https://github.com/SiliangZeng/Multi-Turn-RL-Agent。