⏶35

基于预算相对策略优化的随时推理优化

05月19日发表

05月21日由 Penghui Qi 提交

作者: Penghui Qi, Zichen Zichen Liu, Tianyu Pang, Chao Du Chao Du, Wee Sun Lee, Min Lin

摘要

扩展推理时的计算资源对于提升大型语言模型（LLM）的推理能力至关重要。现有方法通常采用强化学习（RL），以最大化在推理过程结束时获得的可验证奖励。然而，这些方法仅在大而固定的 token 预算下优化最终性能，这阻碍了训练和部署的效率。在本文中，我们提出了一种新颖的框架 AnytimeReasoner，用于优化随时推理性能，旨在提高 token 效率以及在不同 token 预算约束下的推理灵活性。为了实现这一目标，我们将完整的思维过程截断，以适应从先验分布中采样的 token 预算，并促使模型为每次截断的思维总结出最优答案进行验证。这在推理过程中引入了可验证的密集奖励，有助于在强化学习优化中进行更有效的信用分配。然后，我们以解耦的方式优化思维策略和总结策略，以最大化累积奖励。此外，我们引入了一种新颖的方差缩减技术——预算相对策略优化（BRPO），以增强在强化思维策略时的学习过程的鲁棒性和效率。数学推理任务中的实验结果表明，我们的方法在各种先验分布下的所有思维预算下持续优于 GRPO，提升了训练和 token 效率。

查看 arXiv 页面查看 PDF

Penghui Qi

论文作者

论文提交者

相比 GRPO，测试时伸缩性更好！

基于预算相对策略优化的随时推理优化

摘要

评论