QwenLong-L1:迈向基于强化学习的长上下文大型推理模型

发表
Fanqi WanFanqi Wan 提交
作者: Fanqi WanFanqi Wan, Weizhou ShenWeizhou Shen, LiaoShengyiShengyi Liao, shiyingchengYingcheng Shi, liChenliang Li, ZiYi YangZiyi Yang, Ji Zhang, Fei Huang, ZhouJingren Zhou, Ming Yan

摘要

最近的大型推理模型(LRM)通过强化学习(RL)展示了强大的推理能力。这些改进主要体现在短上下文推理任务中。相比之下,通过强化学习将大型推理模型扩展到有效处理和推理长上下文输入仍然是一个关键的未解决挑战。为了弥合这一差距,我们首先形式化了长上下文推理强化学习的范式,并识别了训练效率低下和优化过程不稳定等关键挑战。为了解决这些问题,我们提出了 QwenLong-L1,这是一个通过渐进式上下文缩放将短上下文大型推理模型适应到长上下文场景的框架。具体来说,我们利用一个热身监督微调(SFT)阶段来建立一个稳健的初始策略,然后采用一个课程指导的分阶段强化学习技术来稳定策略演化,并通过一个难度感知的回顾性采样策略来激励策略探索。在七个长文档问答基准测试上的实验表明,QwenLong-L1-32B 的性能优于 OpenAI-o3-mini 和 Qwen3-235B-A22B 等旗舰大型推理模型,性能与 Claude-3.7-Sonnet-Thinking 持平,展示了在最先进的大型推理模型中的领先性能。这项工作推动了能够跨信息密集环境进行稳健推理的实用长上下文大型推理模型的发展。
查看 arXiv 页面查看 PDF

评论

YJYJ

ChatGPT Image May 26, 2025, 06_01_55 PM.png

音频概述(约 17 分钟):

https://youtu.be/qXJnbCcsbjI