超越马尔可夫性:通过贝叶斯自适应强化学习实现大型语言模型的反思性探索推理

发表
Shenao ZhangShenao Zhang 提交
作者: Shenao ZhangShenao Zhang, Yaqing WangYaqing Wang, Yinxiao Liu, Tianqi Liu, Peter Grabowski, Eugene IeEugene Ie, Zhaoran Wang, Yunxuan LiYunxuan Li

摘要

通过强化学习(RL)训练的大型语言模型(LLMs)展现出强大的推理能力和 emergent 的反思行为,例如回溯和纠错。然而,传统的马尔可夫式强化学习将探索限制在训练阶段以学习最优确定性策略,并且仅通过当前状态依赖于历史上下文。因此,在马尔可夫式 RL 训练期间是否会出现反思性推理,或者为什么它们在测试时有益,仍然不清楚。为了解决这个问题,我们将反思性探索重新构建在贝叶斯自适应强化学习框架内,该框架在马尔可夫决策过程的后验分布下显式优化预期回报。这种贝叶斯公式固有地激励了通过信念更新进行的奖励最大化利用和信息收集探索。我们由此产生的算法 BARL 指导 LLM 根据观察到的结果拼接和切换策略,为模型何时以及如何进行反思性探索提供了原则性指导。在合成和数学推理任务上的实证结果表明,BARL 在测试时优于标准的马尔可夫式 RL 方法,通过提高探索有效性实现了更优的 token 效率。我们的代码可在 https://github.com/shenao-zhang/BARL 获取。
查看 arXiv 页面查看 PDF

评论

Shenao ZhangShenao Zhang
论文作者
论文提交者

Arxiv: https://arxiv.org/abs/2505.20561

代码: https://github.com/shenao-zhang/BARL