⏶15
借星引航:大型语言模型在后训练和测试阶段扩展中从奖励中学习的综述
发表
由
Xiaobao Wu 提交
作者:
Xiaobao Wu
摘要
大型语言模型 (LLMs) 的最新进展已从预训练阶段的规模扩展转向后训练和测试阶段的扩展。伴随着这些进展,一个关键的统一范式已经出现:“从奖励中学习”,其中奖励信号作为指引,来引导 LLM 的行为。它支撑了广泛流行的技术,例如强化学习 (在 RLHF, DPO 和 GRPO 中)、奖励引导解码和事后修正。关键是,这一范式实现了从静态数据中被动学习到从动态反馈中主动学习的转变。这赋予了 LLMs 对齐的偏好和深度推理能力。在本次综述中,我们全面概述了“从奖励中学习”这一范式。我们分类并分析了这一范式下涵盖训练、推理和推理后阶段的策略。我们进一步讨论了奖励模型的评测基准和主要应用。最后,我们指出了挑战和未来方向。我们在 https://github.com/bobxwu/learning-from-rewards-llm-papers 维护着一个论文合集。
大语言模型 (LLMs) 的近期发展已从预训练规模化转向后训练和测试时规模化。在这些发展中,出现了一个关键的统一范式:从奖励中学习,其中奖励信号作为引导 LLM 行为的关键指引。它支撑了广泛的主流技术,例如强化学习(如 RLHF、DPO 和 GRPO)、奖励引导解码以及事后修正。至关重要的是,这一范式促成了从基于静态数据的被动学习到基于动态反馈的主动学习的转变。这使得 LLMs 具备了对齐的偏好和深度推理能力。在这篇综述中,我们对从奖励中学习的范式进行了全面概述。我们将这一范式下的策略在训练、推理和推理后等阶段进行了分类和分析。我们还进一步讨论了奖励模型的基准和主要应用。最后,我们指出了挑战和未来方向。我们在 https://github.com/bobxwu/learning-from-rewards-llm-papers 维护了一个论文集。