⏶42
LoongRL:用于长上下文高级推理的强化学习
发表
由
Li Lyna Zhang 提交
作者:
Siyuan Wang, Gaokai Zhang, Li Lyna Zhang, Ning Shang, Fan Yang, Dongyao Chen, Mao Yang
摘要
AI 生成总结
LoongRL 是一种数据驱动的强化学习方法,通过将短多跳问答转化为高难度任务,增强了长上下文推理能力,提高了大型语言模型的准确性和泛化能力。对于大型语言模型而言,长上下文推理至关重要。虽然强化学习(RL)通过在思维链中
诱导“顿悟”时刻来增强短上下文推理能力,但长上下文推理所需的先进思维模式仍 largely
有待探索,且高难度 RL 数据稀缺。在本文中,我们引入了 LoongRL,
一种用于高级长上下文推理的数据驱动 RL 方法。LoongRL
的核心是 KeyChain,一种合成方法,通过插入 UUID 链将短多跳问答转化为高难度长上下文任务,
UUID 链在大量干扰文档中隐藏了真实问题。解决这些任务需要模型逐步追踪正确的链条,
识别真实问题,检索相关事实并对其进行推理以正确回答。对 KeyChain
数据进行 RL 训练会诱导出一种计划-检索-推理-复核的推理模式,该模式的泛化能力远超训练长度。
在 16K 上训练的模型可以有效解决 128K 任务,而无需承担高昂的全长度 RL 展开成本。
在 Qwen2.5-7B 和 14B 上,LoongRL 将长上下文多跳问答的准确率大幅提高了
+23.5% 和 +21.1% 的绝对增益。由此产生的 LoongRL-14B 达到了 74.2
分,与 o3-mini (74.5) 和 DeepSeek-R1 (74.9)
等更大规模的前沿模型相媲美。它还改进了长上下文检索,通过了所有 128K
“大海捞针”压力测试,并保留了短上下文推理能力。
我们引入 LoongRL 来探索模型如何思考长上下文。LoongRL 使用数据驱动的强化学习方法,该方法能诱导紧急的计划-检索-推理-复查模式,并以仅 14B 参数匹配前沿模型。