LoongRL:用于长上下文高级推理的强化学习

发表
Li Lyna ZhangLi Lyna Zhang 提交
作者: Siyuan WangSiyuan Wang, Gaokai Zhang, Li Lyna Zhang, Ning Shang, Fan Yang, Dongyao Chen, Mao Yang

摘要

AI 生成总结
LoongRL 是一种数据驱动的强化学习方法,通过将短多跳问答转化为高难度任务,增强了长上下文推理能力,提高了大型语言模型的准确性和泛化能力。
对于大型语言模型而言,长上下文推理至关重要。虽然强化学习(RL)通过在思维链中 诱导“顿悟”时刻来增强短上下文推理能力,但长上下文推理所需的先进思维模式仍 largely 有待探索,且高难度 RL 数据稀缺。在本文中,我们引入了 LoongRL, 一种用于高级长上下文推理的数据驱动 RL 方法。LoongRL 的核心是 KeyChain,一种合成方法,通过插入 UUID 链将短多跳问答转化为高难度长上下文任务, UUID 链在大量干扰文档中隐藏了真实问题。解决这些任务需要模型逐步追踪正确的链条, 识别真实问题,检索相关事实并对其进行推理以正确回答。对 KeyChain 数据进行 RL 训练会诱导出一种计划-检索-推理-复核的推理模式,该模式的泛化能力远超训练长度。 在 16K 上训练的模型可以有效解决 128K 任务,而无需承担高昂的全长度 RL 展开成本。 在 Qwen2.5-7B 和 14B 上,LoongRL 将长上下文多跳问答的准确率大幅提高了 +23.5% 和 +21.1% 的绝对增益。由此产生的 LoongRL-14B 达到了 74.2 分,与 o3-mini (74.5) 和 DeepSeek-R1 (74.9) 等更大规模的前沿模型相媲美。它还改进了长上下文检索,通过了所有 128K “大海捞针”压力测试,并保留了短上下文推理能力。
查看 arXiv 页面查看 PDF

评论

Li Lyna ZhangLi Lyna Zhang
论文提交者

我们引入 LoongRL 来探索模型如何思考长上下文。LoongRL 使用数据驱动的强化学习方法,该方法能诱导紧急的计划-检索-推理-复查模式,并以仅 14B 参数匹配前沿模型。