⏶9
SimKO:简单的 Pass@K 策略优化
发表
由
ruotian peng 提交
作者: Ruotian Peng, Yi Ren,
Zhouliang Yu,
Weiyang Liu, Yandong Wen
摘要
AI 生成总结
简单 Pass@K 优化 (SimKO) 通过不对称地调整令牌概率来解决可验证奖励 (RLVR) 中的强化学习过度集中问题,从而增强了探索和 Pass@K 性能。具有可验证奖励的强化学习(RLVR)已经提高了大型语言模型(LLM)的推理能力。然而,普遍存在的 RLVR 方法表现出一种系统性的偏向于利用而非探索的偏差,这体现在 pass@1 性能的提高但 pass@K (K>1) 性能的下降。为了理解这个问题,我们通过跟踪词汇候选的 token 级别概率分布来分析 RLVR 方法的训练动力学。我们的分析揭示了一个持续的概率集中效应,即 top-1 候选的概率质量不断增加,并抑制了其他候选的概率质量。更重要的是,更强的过度集中与较差的 pass@K 性能相关。受此发现的启发,我们提出了 Simple Pass@K Optimization(SimKO),这是一种旨在缓解过度集中问题,从而鼓励探索的方法。SimKO 以不对称的方式运行。对于经验证正确的响应,它会提高 top-K 候选的概率。对于经验证不正确的响应,它会对 top-1 候选施加更强的惩罚。我们观察到,当应用于高熵 token 时,这种不对称设计在缓解过度集中方面特别有效。在各种数学和逻辑推理基准上,SimKO 始终能为广泛的 K 值产生更高的 pass@K,为改进 RLVR 的探索提供了一种简单的方法。
代码: https://github.com/CLR-Lab/SimKO
项目页面:https://spherelab.ai/simko/)