SEED-GRPO: 语义熵增强的 GRPO 用于不确定性感知的策略优化


摘要
评论


感谢提出这个问题——这实际上也是我们开始时的想法!在我们早期的实验中,我们确实尝试了相反的策略:放大对于高不确定性(即,高语义熵)问题的优势,这是基于困难问题的正确答案值得更强的更新的直觉。然而,我们观察到这导致了严重的训练不稳定——模型很快就崩溃了。我们认为,在 PPO 和 GRPO 等策略优化方法中,训练稳定性比激进性更重要。高熵问题,根据定义,表明模型的不确定性。即使高熵问题中的某些响应产生了高奖励,它们往往伴随着显著的不确定性。这表明模型在生成过程中并非持续地保持置信。优先处理此类样本可能导致追逐高风险、高回报的异常值,同时忽视更稳定可靠的学习信号。这就是为什么像 TRPO 和 PPO 这样的算法会包含约束(例如,KL 散度惩罚或截断),以确保新策略不会离旧策略太远。
> 感谢提出这个深思熟虑的问题——这正是我们最初的出发点!
>
> 在我们早期的实验中,我们确实尝试了相反的策略:放大高不确定性(即高语义熵)问题的优势,直觉认为正确回答困难问题应获得更强的更新。
>
> 然而,我们观察到这导致了严重的训练不稳定——模型迅速崩溃。我们怀疑,在像PPO和GRPO这样的策略优化方法中,训练稳定性比激进性更重要。高熵问题,顾名思义,表明模型存在不确定性。即使在高熵问题中有些响应能产生高奖励,它们往往伴随着显著的不确定性。这表明模型在生成过程中并非始终保持自信。优先处理这些样本可能会导致追逐高风险、高回报的异常值,而忽略了更稳定和可靠的学习信号。
>
> 这就是为什么像TRPO和PPO这样的算法包含约束(例如KL散度惩罚或裁剪),以确保新策略不会离旧策略太远的原因。
非常有道理!我也有类似的观察,即过度困难的样本会导致模型崩溃。非常感谢您的回复。我很荣幸seed-grpo引用并讨论了我们的EMPO : )