利用不确定性:用于长周期 LLM 代理的熵调制策略梯度

发表
Jiawei WangJiawei Wang 提交
作者: Jiawei WangJiawei Wang, Jiacai Liu, Yuqian FuYuqian Fu, Yingru LiYingru Li, Xintao Wang, Yuan Lin, Yu Yue, Lin Zhang, Yang Wang, Ke Wang

摘要

AI 生成总结
熵调制策略梯度(EMPG)通过根据不确定性和任务结果重新校准策略梯度,解决了大型语言模型中的学习动态问题,从而提高了长程任务的性能。
在长程任务中,基于大语言模型(LLM)的近期智能体面临一个严峻的挑战,即稀疏的、基于结果的奖励使得很难将功劳归于中间步骤。先前的方法主要集中于创建密集的奖励信号来指导学习,无论是通过逆向强化学习等传统强化学习技术,还是通过使用过程奖励模型进行逐步反馈。本文指出 LLM 学习动态中的一个根本性问题:策略梯度的幅度与熵固有耦合,这导致自信正确的动作更新效率低下,并可能破坏不确定动作的大幅更新。为了解决这个问题,我们提出了熵调制策略梯度(EMPG),一个根据步进不确定性和最终任务结果重新校准学习信号的框架。EMPG 放大自信正确动作的更新,惩罚自信错误,并衰减不确定步骤的更新以稳定探索。我们进一步引入一个用于未来清晰度的奖励项,以鼓励智能体寻找更可预测的解决方案路径。通过在三个具有挑战性的智能体任务 WebShop、ALFWorld 和 Deep Search 上的全面实验,我们证明了 EMPG 取得了实质性的性能提升,并显著优于强大的策略梯度基线。项目主页为:https://empgseed-seed.github.io/
查看 arXiv 页面查看 PDF

评论

Jiawei WangJiawei Wang
论文作者
论文提交者

很高兴分享我们的最新论文:“利用不确定性:面向长时域 LLM 代理的熵调制策略梯度” 🤖🔬

在具有稀疏奖励的长时域任务中,信用分配是一个巨大的挑战。我们识别并解决策略梯度中的一个根本性问题:更新幅度与策略熵的耦合,这会导致学习效率低下且不稳定。

我们引入了 EMPG,这是一个利用代理自身不确定性来重新校准学习信号的框架。与 GRPO 和 DAPO 相比,它在 WebShop、ALFWorld 和 Deep Search 等代理基准测试上取得了有希望的提升!

📄 项目页面:https://empgseed-seed.github.io/

image.png

Yury PanikovYury Panikov

谢谢,很有趣