LSPO:用于LLM推理中策略优化的长度感知动态采样

发表
weizhechweizhech 提交
作者: Weizhe Chen, Sven Koenig, Bistra Dilkina

摘要

AI 生成总结
用于策略优化的长度感知采样 (LSPO) 是一种 meta-RLVR 算法,它根据响应长度动态选择训练数据,从而提高大型语言模型的学习效率。
自 Deepseek-R1 发布以来,具有可验证奖励的强化学习 (RLVR) 已成为训练大型语言模型 (LLMs) 进行推理任务的核心方法。近期研究主要集中于修改损失函数,以使 RLVR 更高效、更有效。在本文中,受 LLMs 中“过度思考”研究的启发,我们提出了策略优化中的长度感知采样 (LSPO),一种新颖的元 RLVR 算法,该算法根据平均响应长度动态地在每一步选择训练数据。我们在多个基础模型和数据集上评估了 LSPO,证明它持续提高了学习效率。此外,我们进行了一项详细的消融研究,考察了将长度信号纳入动态采样中的替代方法,从而提供了更深入的见解,并为未来的研究指明了有前景的方向。
查看 arXiv 页面查看 PDF

评论

weizhechweizhech
论文提交者

我们的代码位于:https://github.com/laonahongchen/LSPO。