保持在最佳状态:通过能力自适应提示脚手架实现响应式推理演化

发表
Ziheng LiZiheng Li 提交
作者: Ziheng LiZiheng Li, Zexu Sun, jinmanJinman Zhao, Erxue Min, Yongcheng Zeng, Hui Wu, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Xu Chen, Zhi-Hong Deng

摘要

AI 生成总结
SEELE 是一种新颖的强化学习可验证奖励(RLVR)框架,它利用自适应提示长度动态调整问题难度,以提高探索效率并改善数学推理任务的性能。
具有可验证奖励的强化学习 (RLVR) 在增强大型语言模型 (LLM) 的推理能力方面取得了显著成功。然而,现有的 RLVR 方法常常由于训练数据难度与模型能力之间的不匹配而导致探索效率低下。当问题过于困难时,LLM 无法发现可行的推理路径,而当问题过于简单时,它们又学不到多少新能力。在这项工作中,我们通过量化损失下降速度与回滚准确率之间的关系来形式化问题难度对 RLVR 的影响。基于这一分析,我们提出了 SEELE,一种新颖的监督辅助 RLVR 框架,它动态调整问题难度,使其保持在高效区域内。SEELE 通过在原始问题后附加一个提示(完整解决方案的一部分)来增强每个训练样本。与以前的基于提示的方法不同,SEELE 会故意且自适应地调整每个问题的提示长度,以达到最佳难度。为了确定最佳提示长度,SEELE 采用多轮回滚采样策略。在每一轮中,它都会将一个项目反应理论模型拟合到前几轮收集的准确率-提示对,以预测下一轮所需的提示长度。这种实例级、实时的难度调整将问题难度与不断发展的模型能力相匹配,从而提高了探索效率。实验结果表明,SEELE 在六个数学推理基准上的平均性能分别比 Group Relative Policy Optimization (GRPO) 和 Supervised Fine-tuning (SFT) 高出 +11.8 和 +10.5 分,并且比之前最好的监督辅助方法高出 +3.6 分。
查看 arXiv 页面查看 PDF

评论

Ziheng LiZiheng Li
论文作者
论文提交者

GitHub:https://github.com/ChillingDream/seele