主体熵平衡策略优化

发表
KABIKABI 提交
作者: KABIGuanting Dong, baolichengLicheng Bao, Zhongyuan Wang, Kangzhi Zhao, Xiaoxi Li, Jiajie Jin, Jinghan Yang, Hangyu Mao, Fuzheng Zhang, Kun Gai, Guorui Zhou, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou

摘要

AI 生成总结
AEPO 是一种代理式 RL 算法,解决了 Web 代理训练中的熵相关挑战,提高了跨各种数据集的性能和稳定性。
最近,基于智能体的强化学习(Agentic RL)在激励 Web 智能体的多轮、长时程工具使用能力方面取得了重大进展。虽然主流的智能体 RL 算法在熵的指导下自主探索高不确定性的工具调用步骤,但过度依赖熵信号可能会带来进一步的限制,导致训练崩溃。在本文中,我们深入研究了熵引起的问题,并提出了 Agentic Entropy-Balanced Policy Optimization(AEPO),一种旨在平衡回放和策略更新阶段熵的智能体 RL 算法。AEPO 由两个核心组件组成:(1)一个动态熵平衡回放机制,通过熵预监测自适应分配全局和分支采样预算,同时对连续的高熵工具调用步骤施加分支惩罚,以防止过度分支问题;(2)熵平衡策略优化,将停止梯度操作插入到高熵裁剪项中,以保留并正确重缩放高熵标记上的梯度,同时纳入熵感知优势估计,以优先学习高不确定性标记。在 14 个具有挑战性的数据集上的结果表明,AEPO 在 7 种主流 RL 算法上始终表现更好。仅使用 1K 个 RL 样本,Qwen3-14B 配合 AEPO 在 GAIA 上实现了 47.6% 的 Pass@1,在 Humanity's Last Exam 上实现了 11.2%,在 WebWalker 上实现了 43.0%;在 GAIA 上实现了 65.0% 的 Pass@5,在 Humanity's Last Exam 上实现了 26.0%,在 WebWalker 上实现了 70.0%。进一步分析表明,AEPO 提高了回放采样多样性,同时保持了稳定的策略熵,促进了可扩展的 Web 智能体训练。
查看 arXiv 页面查看 PDF

评论

KABIKABI
论文作者
论文提交者

我们提出了 Agentic Entropy-Balanced Policy Optimization (AEPO),一种专为训练多轮网页代理而设计的熵平衡的 Agentic RL 算法。 AEPO 侧重于在高熵工具调用的指导下平衡和合理化 Rollout 分支和策略更新,从而实现更稳定的 RL 训练。

image

仅使用 1K 个 RL 样本,配备 AEPO 的 Qwen3-14B 在 GAIA 上取得了令人印象深刻的结果:Pass@1 为 47.6%,Humanity’s Last Exam 为 11.2%,WebWalkerQA 为 43.0%;Pass@5 为 GAIA 65.0%,Humanity’s Last Exam 26.0%,WebWalkerQA 70.0%。

KABIKABI
论文作者
论文提交者

🔧 AEPO 的所有代码、数据集和模型检查点均已完全开源:

Github:https://github.com/dongguanting/ARPO

模型:https://huggingface.co/collections/dongguanting/aepo-68ef6832c99697ee03d5e1c7

🔥 关键见解:

  1. 我们系统地揭示了 Agentic RL 中固有的两个由熵驱动的问题:“高熵 Rollout 崩溃”和“高熵 Token 梯度裁剪”(如图所示)。通过初步实验,我们量化了它们对多轮网页代理训练的影响,为进一步研究熵平衡提供了经验证据。

  2. 我们提出了一种动态熵平衡 Rollout 机制,该机制通过熵预监控自适应地分配 Rollout 采样预算,同时对连续高熵步骤施加分支惩罚,以防止过度分支问题。

  3. 我们引入了熵平衡策略优化,它直观地将 stop-gradient 操作集成到高熵裁剪项中,以保留和重新缩放高熵 Token 上的梯度,同时纳入熵感知优势估计,以优先学习高不确定性 Token。

  4. 在 14 个具有挑战性的基准测试上的实验表明,AEPO 在网页代理训练中始终优于 7 种主流 RL 算法。仅使用 1K 个 RL 样本,配备 AEPO 的 Qwen3-14B 取得了令人印象深刻的结果:Pass@1 为 GAIA 47.6%,Humanity’s Last Exam 11.2%,WebWalkerQA 43.0%;Pass@5 为 GAIA 65.0%,Humanity’s Last Exam 26.0%,WebWalkerQA 70.0%。

✨ 两个由熵驱动的挑战:

image

🔥 AEPO 概述:

image