反思、重试、奖励:基于强化学习的LLM自我改进

发表
Melisa RussakMelisa Russak 提交
作者: Shelly BensalShelly Bensal, Umar JamilUmar Jamil, Christopher Bryant, Melisa RussakMelisa Russak, Kiran KambleKiran Kamble, Dmytro MozolevskyiDmytro Mozolevskyi, Muayad AliMuayad Ali, Waseem AlShikhWaseem AlShikh

摘要

我们探索了一种通过自我反思和强化学习来提高大型语言模型性能的方法。通过激励模型在回答错误时生成更好的自我反思,我们证明了即使在无法生成合成数据且只有二元反馈的情况下,也能提高模型解决复杂、可验证任务的能力。我们的框架分两个阶段运行:首先,在未能完成给定任务时,模型会生成一段自我反思的评论,分析其之前的尝试;其次,模型会在包含自我反思的上下文中再次尝试该任务。如果随后的尝试成功,则在自我反思阶段生成的 tokens 将获得奖励。我们的实验结果表明,在各种模型架构上,性能都有显著提升,数学方程书写方面提升高达 34.7%,函数调用方面提升 18.1%。值得注意的是,更小的微调模型(15 亿到 70 亿参数)表现优于同系列中大 10 倍的模型。因此,我们的新范式是通往更有用、更可靠的语言模型的一条令人兴奋的途径,这些模型可以在外部反馈有限的情况下在具有挑战性的任务上进行自我改进。
查看 arXiv 页面查看 PDF

评论

Melisa RussakMelisa Russak
论文作者
论文提交者

我们提出了一个两阶段框架,其中语言模型通过在犯错后生成自我反思性评论来改进,然后利用该反思重试任务,并在成功时获得强化;值得注意的是,只有反思代币(reflection tokens)得到奖励,其他代币被屏蔽,以强化可泛化的自我反思,而非任务特定的解决方案。

AnwarAnwar

@librarian-bot recommend

kirk goddardkirk goddard

很高兴看到更多证据表明,并非越大越好(特别是在采用正确技术的情况下)。