LAPO:通过长度自适应策略优化内化推理效率

发表
Yongliang ShenYongliang Shen 提交
作者: wuxingyuXingyu Wu, Yuchen YanYuchen Yan, Shangke Lyu, Linjuan Wu, Yiwen Qiu, Yongliang ShenYongliang Shen, Weiming Lu, Jian Shao, Jun Xiao, Yueting Zhuang

摘要

大型推理模型通过扩展的思维链序列取得了显著性能,但这种计算自由度即使对于简单问题也会导致过多的token生成。我们提出了长度自适应策略优化(LAPO),这是一个新颖的框架,它将推理长度控制从外部约束转变为模型固有的能力。与现有施加严格限制或依赖事后干预的方法不同,LAPO使模型能够通过两阶段强化学习过程内化对适当推理深度的理解。在第一阶段,模型通过发现成功解决方案长度的统计分布来学习自然的推理模式。第二阶段利用这些模式作为元认知指导,将它们直接嵌入到模型的推理上下文中,以确保推理时的灵活性。在数学推理基准上的实验表明,LAPO将token使用量减少高达40.9%,同时将准确率提高2.3%。我们的分析揭示,使用LAPO训练的模型发展出根据问题复杂性分配计算资源的涌现能力,在不牺牲质量的情况下实现了高效推理。
查看 arXiv 页面查看 PDF

评论

Yongliang ShenYongliang Shen
论文作者
论文提交者

一个两阶段的强化学习框架,旨在教会模型内化推理效率。

Github: https://github.com/ZJU-REAL/LAPO