简单的“再试一次”即可引发多轮大型语言模型推理

发表
Licheng LiuLicheng Liu 提交
作者: Licheng LiuLicheng Liu, Zihan Wang, Linjie Li, Chenwei Xu, Yiping Lu, Han Liu, Avirup Sil, Manling Li

摘要

多轮问题解决对于大型推理模型(LRM)反思其推理并根据反馈进行修正至关重要,但也极具挑战性。现有的强化学习(RL)方法在单轮范式下训练大型推理模型,并使用可验证的奖励。然而,我们观察到,使用现有RL范式训练的模型往往会失去在多轮中解决问题的能力,并且难以根据上下文反馈修改答案,导致重复响应。我们提出了一个问题:LRM能否学会在多轮情境中反思它们的答案?在这项工作中,我们发现,在错误答案后仅使用一元反馈(例如,“我们再试一次”)进行多轮RL训练,可以同时提高单轮性能和多轮推理能力。我们引入了强化学习中的“一元反馈作为观察”(UFO)机制,它在迭代问题解决过程中使用最少但常见的一元用户反馈。它可以很容易地应用于现有的单轮RL训练设置。实验结果表明,使用UFO的RL训练保持了单轮性能,并将多轮推理准确性提高了高达14%,使语言模型能够更好地在多轮问题解决中对反馈作出反应。为了进一步最小化获得正确答案所需的轮数,同时在出现错误时鼓励多样化推理,我们设计了奖励结构,引导模型在每一轮中生成谨慎和深思熟虑的答案。代码:https://github.com/lichengliu03/unary-feedback
查看 arXiv 页面查看 PDF

评论

Licheng LiuLicheng Liu
论文作者
论文提交者

本文提出了一元反馈作为观察(UFO)方法,这是一种简单的多轮强化学习方法,通过“我们再试一次”等最少反馈,帮助大型推理模型反思错误并改进。UFO 将多轮推理的准确性提高了多达 14%,同时保持了单轮性能,从而实现了更深思熟虑和灵活的问题解决。