⏶117
超越Pass@1:变分问题合成的自我对弈能够维持RLVR
发表
由
Xiao Liang 提交

作者:
Xiao Liang, Zhongzhi Li, Yeyun Gong, Yelong Shen, Ying Nian Wu, Zhijiang Guo, Weizhu Chen

摘要
具有可验证奖励的强化学习 (RLVR) 最近已成为训练后大型语言模型 (LLM) 的关键范式,尤其是在处理复杂推理任务时。然而,纯 RLVR 训练已被证明会在牺牲策略熵的同时提高 Pass@1 性能,从而导致生成多样性降低,并限制了通常代表 LLM 推理能力上限的 Pass@k 性能。在本文中,我们系统地从训练问题的角度分析了策略的生成多样性,并发现增强和更新训练问题有助于缓解训练过程中的熵崩溃。基于这些观察,我们提出了一种在线自我对弈变分问题合成 (SvS) 策略用于 RLVR 训练,该策略使用策略的正确解决方案来合成变分问题,同时确保其参考答案与原始问题保持一致。这种自我改进策略在训练过程中有效地维持了策略熵,并与标准 RLVR 相比,显著提高了 Pass@k 性能,在竞赛级别的 AIME24 和 AIME25 基准上实现了 18.3% 和 22.8% 的 Pass@32 性能绝对提升。在跨越 3B 到 32B 的不同模型规模的 12 个推理基准上的实验一致地证明了 SvS 的泛化能力和鲁棒性。

评论
根据 https://arxiv.org/pdf/2107.03374,pass@k 的无偏估计以 n、c 和 k 作为输入。您生成 n 个样本,其中 c 个是正确的,然后通过改变 k 来计算 pass@k。
请问您的 pass@k 的公式是什么?
在本文中,我们从训练问题的角度系统地分析了策略的生成多样性,并发现增强和更新训练问题有助于缓解训练过程中的熵坍塌。基于这些观察,我们提出了一种在线自博弈变分问题合成(SvS)策略用于 RLVR 训练,该策略利用策略的正确解来合成变分问题,同时确保其参考答案与原始问题保持一致。这种自改进策略有效地在训练过程中维持了策略熵,并且与标准的 RLVR 相比,在竞赛级别的 AIME24 和 AIME25 基准上显著提高了 Pass@k,在 Pass@32 性能上实现了 18.3% 和 22.8% 的绝对提升。