主体熵平衡策略优化



摘要
评论

🔧 AEPO 的所有代码、数据集和模型检查点均已完全开源:
Github:https://github.com/dongguanting/ARPO
模型:https://huggingface.co/collections/dongguanting/aepo-68ef6832c99697ee03d5e1c7
🔥 关键见解:
我们系统地揭示了 Agentic RL 中固有的两个由熵驱动的问题:“高熵 Rollout 崩溃”和“高熵 Token 梯度裁剪”(如图所示)。通过初步实验,我们量化了它们对多轮网页代理训练的影响,为进一步研究熵平衡提供了经验证据。
我们提出了一种动态熵平衡 Rollout 机制,该机制通过熵预监控自适应地分配 Rollout 采样预算,同时对连续高熵步骤施加分支惩罚,以防止过度分支问题。
我们引入了熵平衡策略优化,它直观地将 stop-gradient 操作集成到高熵裁剪项中,以保留和重新缩放高熵 Token 上的梯度,同时纳入熵感知优势估计,以优先学习高不确定性 Token。
在 14 个具有挑战性的基准测试上的实验表明,AEPO 在网页代理训练中始终优于 7 种主流 RL 算法。仅使用 1K 个 RL 样本,配备 AEPO 的 Qwen3-14B 取得了令人印象深刻的结果:Pass@1 为 GAIA 47.6%,Humanity’s Last Exam 11.2%,WebWalkerQA 43.0%;Pass@5 为 GAIA 65.0%,Humanity’s Last Exam 26.0%,WebWalkerQA 70.0%。
✨ 两个由熵驱动的挑战:
🔥 AEPO 概述:
arXiv 论文解读 👉 https://arxivexplained.com/papers/agentic-entropy-balanced-policy-optimization
我们提出了 Agentic Entropy-Balanced Policy Optimization (AEPO),一种专为训练多轮网页代理而设计的熵平衡的 Agentic RL 算法。 AEPO 侧重于在高熵工具调用的指导下平衡和合理化 Rollout 分支和策略更新,从而实现更稳定的 RL 训练。
仅使用 1K 个 RL 样本,配备 AEPO 的 Qwen3-14B 在 GAIA 上取得了令人印象深刻的结果:Pass@1 为 47.6%,Humanity’s Last Exam 为 11.2%,WebWalkerQA 为 43.0%;Pass@5 为 GAIA 65.0%,Humanity’s Last Exam 26.0%,WebWalkerQA 70.0%。