⏶117

超越Pass@1：变分问题合成的自我对弈能够维持RLVR

08月19日发表

08月25日由 Xiao Liang 提交

作者: Xiao Liang, Zhongzhi Li, Yeyun Gong, Yelong Shen, Ying Nian Wu, Zhijiang Guo, Weizhu Chen

摘要

具有可验证奖励的强化学习 (RLVR) 最近已成为训练后大型语言模型 (LLM) 的关键范式，尤其是在处理复杂推理任务时。然而，纯 RLVR 训练已被证明会在牺牲策略熵的同时提高 Pass@1 性能，从而导致生成多样性降低，并限制了通常代表 LLM 推理能力上限的 Pass@k 性能。在本文中，我们系统地从训练问题的角度分析了策略的生成多样性，并发现增强和更新训练问题有助于缓解训练过程中的熵崩溃。基于这些观察，我们提出了一种在线自我对弈变分问题合成 (SvS) 策略用于 RLVR 训练，该策略使用策略的正确解决方案来合成变分问题，同时确保其参考答案与原始问题保持一致。这种自我改进策略在训练过程中有效地维持了策略熵，并与标准 RLVR 相比，显著提高了 Pass@k 性能，在竞赛级别的 AIME24 和 AIME25 基准上实现了 18.3% 和 22.8% 的 Pass@32 性能绝对提升。在跨越 3B 到 32B 的不同模型规模的 12 个推理基准上的实验一致地证明了 SvS 的泛化能力和鲁棒性。

查看 arXiv 页面查看 PDF

Xiao Liang

论文作者

论文提交者

在本文中，我们从训练问题的角度系统地分析了策略的生成多样性，并发现增强和更新训练问题有助于缓解训练过程中的熵坍塌。基于这些观察，我们提出了一种在线自博弈变分问题合成（SvS）策略用于 RLVR 训练，该策略利用策略的正确解来合成变分问题，同时确保其参考答案与原始问题保持一致。这种自改进策略有效地在训练过程中维持了策略熵，并且与标准的 RLVR 相比，在竞赛级别的 AIME24 和 AIME25 基准上显著提高了 Pass@k，在 Pass@32 性能上实现了 18.3% 和 22.8% 的绝对提升。

h zhao

您在 pass@k 中的 n 的值是多少？

Xiao Liang

论文作者

论文提交者

您好，您是否指的是 pass@k 实验中的“k”？

在我们的大部分实验中，我们将 k 设置为 32；然而，在第 5.2 节中，我们将 pass@k 的评估规模从 k = 1 扩大到了 k = 1,024。

h zhao

根据 https://arxiv.org/pdf/2107.03374，pass@k 的无偏估计以 n、c 和 k 作为输入。您生成 n 个样本，其中 c 个是正确的，然后通过改变 k 来计算 pass@k。

请问您的 pass@k 的公式是什么？

超越Pass@1：变分问题合成的自我对弈能够维持RLVR

摘要

评论