SEED-GRPO: 语义熵增强的 GRPO 用于不确定性感知的策略优化

发表
MCMC 提交
作者: MCMinghan Chen, Guikun Chen, Wenguan Wang, Yi Yang

摘要

大型语言模型 (LLM) 在不同的输入提示(问题)上表现出不同程度的置信度:有些提示产生一致的、语义相似的答案,而有些则产生多样化或矛盾的输出。这种变化反映了 LLM 对输入提示的不确定性,是模型理解给定问题的置信度的一个信号。然而,标准的群体相对策略优化 (GRPO) 在策略更新过程中平等对待所有提示,忽略了关于模型知识边界的这一重要信息。为了解决这一限制,我们提出了 SEED-GRPO (语义熵增强的群体相对策略优化),它明确地使用输入提示的语义熵来衡量 LLM 的不确定性。语义熵衡量在给定提示下多个生成的答案的意义多样性,并利用此信息来调节策略更新的幅度。这种不确定性感知训练机制能够根据问题的不确定性动态调整策略更新的幅度。它在高不确定性问题上允许更保守的更新,同时在高置信度问题上保持原始的学习信号。在五个数学推理基准测试 (AIME24 56.7, AMC 68.7, MATH 83.4, Minerva 34.2, 和 OlympiadBench 48.0) 上的实验结果表明,SEED-GRPO 在平均准确率方面达到了新的最先进性能 (state-of-the-art, SOTA),验证了不确定性感知策略优化的有效性。
查看 arXiv 页面查看 PDF

评论

MCMC
论文作者
论文提交者
此评论已隐藏。
MCMC
论文作者
论文提交者

大家好,我们刚刚发布了 SEED-GRPO,这是一个新的强化学习框架,将语义熵融入到策略优化中。

🔍 动机:

大多数 GRPO 方法平等对待所有提示,但有些提示问题比其他问题更难。SEED-GRPO 测量语义熵(即答案的多样性)来评估不确定性:

如果模型不确定(熵高 → 输出多样),我们进行保守更新。

如果模型确定(熵低 → 答案一致),我们保持原始更新。

📈 结果:

仅使用 7B 模型,我们就达到了 56.7 的 AIME24 分数,超过了许多更大的基线模型。

qingyang zhangqingyang zhang

祝贺你们,论文很有趣,结果也很出色!我有点困惑为什么 seed-grpo 会降低高不确定性(语义熵高)样本的优势呢?直觉上,困难问题(高熵)中正确的(高奖励)响应似乎更值得学习。

MCMC
论文作者
论文提交者

感谢提出这个问题——这实际上也是我们开始时的想法!在我们早期的实验中,我们确实尝试了相反的策略:放大对于高不确定性(即,高语义熵)问题的优势,这是基于困难问题的正确答案值得更强的更新的直觉。然而,我们观察到这导致了严重的训练不稳定——模型很快就崩溃了。我们认为,在 PPO 和 GRPO 等策略优化方法中,训练稳定性比激进性更重要。高熵问题,根据定义,表明模型的不确定性。即使高熵问题中的某些响应产生了高奖励,它们往往伴随着显著的不确定性。这表明模型在生成过程中并非持续地保持置信。优先处理此类样本可能导致追逐高风险、高回报的异常值,同时忽视更稳定可靠的学习信号。这就是为什么像 TRPO 和 PPO 这样的算法会包含约束(例如,KL 散度惩罚或截断),以确保新策略不会离旧策略太远。

MCMC
论文作者
论文提交者

嗯,你是 EMPO 的作者。我很高兴在同一时间也有其他人有类似的想法!

qingyang zhangqingyang zhang

> 感谢提出这个深思熟虑的问题——这正是我们最初的出发点!

>

> 在我们早期的实验中,我们确实尝试了相反的策略:放大高不确定性(即高语义熵)问题的优势,直觉认为正确回答困难问题应获得更强的更新。

>

> 然而,我们观察到这导致了严重的训练不稳定——模型迅速崩溃。我们怀疑,在像PPO和GRPO这样的策略优化方法中,训练稳定性比激进性更重要。高熵问题,顾名思义,表明模型存在不确定性。即使在高熵问题中有些响应能产生高奖励,它们往往伴随着显著的不确定性。这表明模型在生成过程中并非始终保持自信。优先处理这些样本可能会导致追逐高风险、高回报的异常值,而忽略了更稳定和可靠的学习信号。

>

> 这就是为什么像TRPO和PPO这样的算法包含约束(例如KL散度惩罚或裁剪),以确保新策略不会离旧策略太远的原因。

非常有道理!我也有类似的观察,即过度困难的样本会导致模型崩溃。非常感谢您的回复。我很荣幸seed-grpo引用并讨论了我们的EMPO : )