⏶39
不落下任何提示:通过熵引导的优势塑造,在LLM强化学习中利用零方差提示
发表
由
Thanh-Long V. Le 提交
作者:
Thanh-Long V. Le, Myeongho Jeon, Kim Vu,
Viet Lai, Eunho Yang
摘要
AI 生成总结
RL-ZVP 是一种新颖的强化学习算法,它利用零方差提示来提高大型语言模型在数学推理任务中的准确性和通过率。基于可验证奖励的强化学习 (RLVR) 是一个强大的框架,用于提高大型语言模型 (LLM) 的推理能力。然而,GRPO 等现有方法仅依赖于模型对同一输入响应的正确性不同的问题,而忽略了所有响应都获得相同奖励的问题——即所谓的零方差提示。在这项工作中,我们认为这类提示并非无用,实际上可以为策略优化提供有意义的反馈。为此,我们引入了带有零方差提示的强化学习 (RL-ZVP),这是一种从零方差提示中提取学习信号的新算法。RL-ZVP 直接奖励正确性并惩罚错误,即使没有对比响应,它还可以通过 token 级特征来调节反馈,以保留信息量和细微的信号。在六个数学推理基准测试中,RL-ZVP 在准确率方面取得了比 GRPO 高达 8.61 个百分点的显著改进,在通过率方面取得了 7.77 个百分点的改进,同时始终优于过滤掉零方差提示的其他基线。这些结果凸显了在 RLVR 中从零方差提示学习的潜在未开发价值。
我们建议在 RLVR (GRPO) 管道中利用零方差提示作为额外的学习信号。