⏶42

LoongRL：用于长上下文高级推理的强化学习

10月22日发表

10月23日由 Li Lyna Zhang 提交

作者: Siyuan Wang, Gaokai Zhang, Li Lyna Zhang, Ning Shang, Fan Yang, Dongyao Chen, Mao Yang

摘要

AI 生成总结

LoongRL 是一种数据驱动的强化学习方法，通过将短多跳问答转化为高难度任务，增强了长上下文推理能力，提高了大型语言模型的准确性和泛化能力。

对于大型语言模型而言，长上下文推理至关重要。虽然强化学习（RL）通过在思维链中诱导“顿悟”时刻来增强短上下文推理能力，但长上下文推理所需的先进思维模式仍 largely 有待探索，且高难度 RL 数据稀缺。在本文中，我们引入了 LoongRL，一种用于高级长上下文推理的数据驱动 RL 方法。LoongRL 的核心是 KeyChain，一种合成方法，通过插入 UUID 链将短多跳问答转化为高难度长上下文任务， UUID 链在大量干扰文档中隐藏了真实问题。解决这些任务需要模型逐步追踪正确的链条，识别真实问题，检索相关事实并对其进行推理以正确回答。对 KeyChain 数据进行 RL 训练会诱导出一种计划-检索-推理-复核的推理模式，该模式的泛化能力远超训练长度。在 16K 上训练的模型可以有效解决 128K 任务，而无需承担高昂的全长度 RL 展开成本。在 Qwen2.5-7B 和 14B 上，LoongRL 将长上下文多跳问答的准确率大幅提高了 +23.5% 和 +21.1% 的绝对增益。由此产生的 LoongRL-14B 达到了 74.2 分，与 o3-mini (74.5) 和 DeepSeek-R1 (74.9) 等更大规模的前沿模型相媲美。它还改进了长上下文检索，通过了所有 128K “大海捞针”压力测试，并保留了短上下文推理能力。

查看 arXiv 页面查看 PDF

Li Lyna Zhang

论文提交者

我们引入 LoongRL 来探索模型如何思考长上下文。LoongRL 使用数据驱动的强化学习方法，该方法能诱导紧急的计划-检索-推理-复查模式，并以仅 14B 参数匹配前沿模型。

LoongRL：用于长上下文高级推理的强化学习

摘要

评论