用于熵安全推理的分位数优势估计

发表
Junkang WuJunkang Wu 提交
作者: Junkang WuJunkang Wu, Kexin HuangKexin Huang, Jiancan Wu, An Zhang, Xiang WangXiang Wang, Xiangnan He

摘要

AI 生成总结
Quantile Advantage Estimation 通过解决熵问题并提高大型语言模型的性能,从而稳定了具有可验证奖励的强化学习。
具有可验证奖励的强化学习 (RLVR) 增强了 LLM 的推理能力,但训练经常在 {熵坍塌} 和 {熵爆炸} 之间振荡。我们将这两种危险追溯到无价值 RL(例如 GRPO 和 DAPO)中使用的均值基线,该基线不正确地惩罚了奖励异常值下的负优势样本。我们提出 {分位数优势估计} (QAE),用一组 K 分位数的基线替换均值。QAE 诱导了一个响应级别的两阶段门:在困难查询(p <= 1 - K)上,它强化了罕见的成功;在容易查询(p > 1 - K)上,它针对剩余的失败。在一次差分 softmax 更新下,我们证明了 {双向熵安全},对一步熵变化给出下界和上界,从而抑制爆炸并防止坍塌。在实证上,这种最小的修改稳定了熵,稀疏化了信用分配(经过调整 K 后,大约 80% 的响应获得零优势),并在 Qwen3-8B/14B-Base 的 AIME 2024/2025 和 AMC 2023 上持续获得 pass@1 增益。这些结果表明 {基线设计}——而不是 token 级启发式方法——是扩展 RLVR 的主要机制。
查看 arXiv 页面查看 PDF

评论

Junkang WuJunkang Wu
论文作者
论文提交者

问题。在 LLM 推理的无价值 RL(例如 GRPO/DAPO)中,训练经常在熵爆炸(由负优势驱动的过度随机更新)和熵崩溃(过早确定性)之间振荡,影响了扩展性。

观察。组均值基线在奖励异常值下很脆弱:它会膨胀基线,并将许多合理的响应变成负优势,加剧了不稳定性。

方法 (QAE)。用每个查询组的K 分位数基线替换均值。这会诱导一个双状态门

  • 难题(成功率低):仅加强稀有成功
  • 易题(成功率高):仅惩罚残余失败

单个(K)控制有多少响应获得非零优势,平衡探索/利用,并在首阶 softmax 更新下提供双向熵安全性

entropy_dynamics

main_table

sparsity_adv