⏶116
用于熵安全推理的分位数优势估计
发表
由
Junkang Wu 提交
作者:
Junkang Wu,
Kexin Huang, Jiancan Wu, An Zhang,
Xiang Wang, Xiangnan He
摘要
AI 生成总结
Quantile Advantage Estimation 通过解决熵问题并提高大型语言模型的性能,从而稳定了具有可验证奖励的强化学习。具有可验证奖励的强化学习 (RLVR) 增强了 LLM 的推理能力,但训练经常在 {熵坍塌} 和 {熵爆炸} 之间振荡。我们将这两种危险追溯到无价值 RL(例如 GRPO 和 DAPO)中使用的均值基线,该基线不正确地惩罚了奖励异常值下的负优势样本。我们提出 {分位数优势估计} (QAE),用一组 K 分位数的基线替换均值。QAE 诱导了一个响应级别的两阶段门:在困难查询(p <= 1 - K)上,它强化了罕见的成功;在容易查询(p > 1 - K)上,它针对剩余的失败。在一次差分 softmax 更新下,我们证明了 {双向熵安全},对一步熵变化给出下界和上界,从而抑制爆炸并防止坍塌。在实证上,这种最小的修改稳定了熵,稀疏化了信用分配(经过调整 K 后,大约 80% 的响应获得零优势),并在 Qwen3-8B/14B-Base 的 AIME 2024/2025 和 AMC 2023 上持续获得 pass@1 增益。这些结果表明 {基线设计}——而不是 token 级启发式方法——是扩展 RLVR 的主要机制。
问题。在 LLM 推理的无价值 RL(例如 GRPO/DAPO)中,训练经常在熵爆炸(由负优势驱动的过度随机更新)和熵崩溃(过早确定性)之间振荡,影响了扩展性。
观察。组均值基线在奖励异常值下很脆弱:它会膨胀基线,并将许多合理的响应变成负优势,加剧了不稳定性。
方法 (QAE)。用每个查询组的K 分位数基线替换均值。这会诱导一个双状态门:
单个(K)控制有多少响应获得非零优势,平衡探索/利用,并在首阶 softmax 更新下提供双向熵安全性。