⏶13
逆向强化学习遇上大语言模型后训练:基础、进展与机遇
发表
由
Hao Sun 提交
作者:
Hao Sun, Mihaela van der Schaar
摘要
在大型语言模型(LLMs)时代,对齐已成为追求更可靠、更可控、更强大机器智能过程中一个基本但具有挑战性的问题。推理模型和对话式人工智能系统近期取得的成功,突显了强化学习(RL)在增强这些系统方面的关键作用,从而推动了强化学习与大型语言模型对齐交叉领域的研究兴趣日益增长。本文从逆向强化学习(IRL)的角度,全面综述了大型语言模型对齐领域的最新进展,并强调了大型语言模型对齐中使用的强化学习技术与传统强化学习任务中使用的技术之间的区别。特别是,我们强调了从人类数据构建神经奖励模型的必要性,并讨论了这种范式转变的形式和实践意义。首先,我们介绍强化学习的基本概念,为不熟悉该领域的读者奠定基础。接着,我们审视了该研究议程的最新进展,讨论了在大型语言模型对齐中进行逆向强化学习的关键挑战和机遇。除了方法论考量,我们还探讨了实践方面,包括数据集、基准、评估指标、基础设施以及计算高效的训练和推理技术。最后,我们从稀疏奖励强化学习的文献中汲取见解,以识别开放问题和潜在的研究方向。通过综合不同研究的发现,我们旨在提供该领域结构化且批判性的概述,强调尚未解决的挑战,并勾勒出通过强化学习和逆向强化学习技术改进大型语言模型对齐的有前景的未来方向。
AAAI & ACL 2025 教程:逆向强化学习遇上大语言模型对齐