⏶32
基于信息增益的策略优化:多轮 LLM 代理的简单有效方法
发表
由
Sunhao Dai 提交

作者: Guoqing Wang, Sunhao Dai, Guangze Ye, Zeyu Gan, Wei Yao, Yong Deng, Xiaofeng Wu, Zhenzhe Ying
摘要
AI 生成总结
基于信息增益的策略优化 (IGPO) 通过提供来自模型信念更新的密集内在奖励,增强了大型语言模型的多轮推理能力,从而提高了准确性和样本效率。基于大型语言模型(LLM)的智能体越来越多地通过强化学习(RL)进行训练,以增强它们通过工具使用与外部环境交互的能力,尤其是在需要多轮推理和知识获取的搜索场景中。然而,现有的方法通常依赖于仅在最终答案中提供的基于结果的奖励。这种奖励稀疏性在多轮设置中尤其成问题,因为长轨迹会加剧两个关键问题:(i)优势坍塌,即所有回放都获得相同的奖励,没有提供有用的学习信号;(ii)缺乏细粒度的信用分配,即回合之间的依赖关系被掩盖,尤其是在长时任务中。在本文中,我们提出了基于信息增益的策略优化(IGPO),这是一个简单而有效的 RL 框架,为多轮智能体训练提供密集且内在的监督。IGPO 将每个交互回合视为获取有关真实信息的一个增量过程,并将回合级奖励定义为策略生成正确答案的概率的边际增加。与依赖外部奖励模型或昂贵的蒙特卡洛估计的先前过程级奖励方法不同,IGPO 直接从模型的信念更新中获得内在奖励。这些内在回合级奖励与结果级监督结合,形成密集的奖励轨迹。在领域内和领域外基准上的广泛实验表明,IGPO 在多轮场景中始终优于强大的基线,实现了更高的准确性和更高的样本效率。
我们的主要贡献可总结如下:
(1) 我们分析了基于结果-奖励的优化中优势崩溃的现象,并揭示了现有过程级奖励由于依赖外部知识或高方差估计而效率低下。
(2) 我们提出了 IGPO,一个简单而有效的策略优化框架,它利用回合级信息增益提供密集、感知真实结果的监督,同时保持结果级对齐。
(3) 全面的实验表明,IGPO 在多个基准测试中优于强大的基线,并显著提高了样本效率,尤其是在小型模型上。