超越Pass@1:变分问题合成的自我对弈能够维持RLVR

发表
Xiao LiangXiao Liang 提交
作者: Xiao LiangXiao Liang, Zhongzhi Li, Yeyun Gong, Yelong Shen, Ying Nian Wu, Zhijiang Guo, Weizhu Chen

摘要

具有可验证奖励的强化学习 (RLVR) 最近已成为训练后大型语言模型 (LLM) 的关键范式,尤其是在处理复杂推理任务时。然而,纯 RLVR 训练已被证明会在牺牲策略熵的同时提高 Pass@1 性能,从而导致生成多样性降低,并限制了通常代表 LLM 推理能力上限的 Pass@k 性能。在本文中,我们系统地从训练问题的角度分析了策略的生成多样性,并发现增强和更新训练问题有助于缓解训练过程中的熵崩溃。基于这些观察,我们提出了一种在线自我对弈变分问题合成 (SvS) 策略用于 RLVR 训练,该策略使用策略的正确解决方案来合成变分问题,同时确保其参考答案与原始问题保持一致。这种自我改进策略在训练过程中有效地维持了策略熵,并与标准 RLVR 相比,显著提高了 Pass@k 性能,在竞赛级别的 AIME24 和 AIME25 基准上实现了 18.3% 和 22.8% 的 Pass@32 性能绝对提升。在跨越 3B 到 32B 的不同模型规模的 12 个推理基准上的实验一致地证明了 SvS 的泛化能力和鲁棒性。
查看 arXiv 页面查看 PDF
超越Pass@1:变分问题合成的自我对弈能够维持RLVR

评论

Xiao LiangXiao Liang
论文作者
论文提交者

在本文中,我们从训练问题的角度系统地分析了策略的生成多样性,并发现增强和更新训练问题有助于缓解训练过程中的熵坍塌。基于这些观察,我们提出了一种在线自博弈变分问题合成(SvS)策略用于 RLVR 训练,该策略利用策略的正确解来合成变分问题,同时确保其参考答案与原始问题保持一致。这种自改进策略有效地在训练过程中维持了策略熵,并且与标准的 RLVR 相比,在竞赛级别的 AIME24 和 AIME25 基准上显著提高了 Pass@k,在 Pass@32 性能上实现了 18.3%22.8% 的绝对提升。

h zhaoh zhao

您在 pass@k 中的 n 的值是多少?

Xiao LiangXiao Liang
论文作者
论文提交者

您好,您是否指的是 pass@k 实验中的“k”?

在我们的大部分实验中,我们将 k 设置为 32;然而,在第 5.2 节中,我们将 pass@k 的评估规模从 k = 1 扩大到了 k = 1,024。

h zhaoh zhao

根据 https://arxiv.org/pdf/2107.03374,pass@k 的无偏估计以 n、c 和 k 作为输入。您生成 n 个样本,其中 c 个是正确的,然后通过改变 k 来计算 pass@k。

请问您的 pass@k 的公式是什么?