⏶25
R-Horizon:您的强大推理模型在广度和深度上真正能走多远?
发表
由
Luyi 提交
作者:
Yi Lu, Jianing Wang,
Linsen Guo,
Wei He, Hongyin Tang, Tao Gui, Xuanjing Huang, Xuezhi Cao, Wei Wang, Xunliang Cai

摘要
AI 生成总结
R-HORIZON 是一种使用查询组合的方法,通过一系列复杂的 Muti-step 任务基准来改进大型推理模型中的长程推理,从而提高性能和准确性。近期推理模型(例如,OpenAI o1,DeepSeek-R1)的测试时间扩展(test-time scaling)趋势通过长链式思维(Chain-of-Thought, CoT)取得了显著的改进。然而,现有的基准主要关注即时的、单阶段的任务,未能充分评估模型理解和响应复杂、长阶段场景的能力。为了解决大型推理模型(LRMs)的这种不完整评估问题,我们提出了R-HORIZON,一种旨在通过查询组合来激发LRMs长阶段推理行为的方法。基于R-HORIZON,我们构建了一个长阶段推理基准,该基准包含跨越长推理阶段的、具有相互依赖问题的复杂多步推理任务。通过使用R-HORIZON基准对LRMs进行全面评估,我们发现即使是最先进的LRMs也遭受显著的性能下降。我们的分析表明,LRMs的有效推理长度有限,并且在适当分配多个问题的思考预算方面存在困难。认识到这些局限性,我们使用R-HORIZON为具有验证奖励(RLVR)的强化学习构建长阶段推理数据。与使用单阶段数据训练相比,R-HORIZON的RLVR不仅显著提高了多阶段推理任务的性能,而且在标准推理任务上的准确性也有所提高,在AIME2024上提高了7.5。这些结果表明R-HORIZON是增强和评估LRMs长阶段推理能力的、可扩展、可控且低成本的范式。
推理模型(例如,OpenAI o1、DeepSeek-R1)的测试时缩放的最新趋势通过长链条思考 (CoT) 取得了显著的改进。然而,现有的基准主要关注即时、单次任务,未能充分评估模型理解和响应复杂、长周期场景的能力。为了解决对大型推理模型 (LRM) 的这种不完整评估,我们提出了 R-HORIZON,一种旨在通过查询组合来激发 LRM 的长周期推理行为的方法。基于 R-HORIZON,我们构建了一个长周期推理基准,包含跨越长推理周期的复杂多步推理任务和相互依赖的问题。通过 R-HORIZON 对 LRM 进行的全面评估,我们发现即使是最先进的 LRM 也存在显著的性能下降。我们的分析表明,LRM 的有效推理长度有限,并且难以在多个问题之间适当分配思考预算。认识到这些限制,我们使用 R-HORIZON 构建用于带验证奖励的强化学习 (RLVR) 的长周期推理数据。与使用单次数据进行训练相比,R-HORIZON 的 RLVR 不仅在多周期推理任务上显著提高了性能,还提高了在标准推理任务上的准确性,在 AIME2024 上提高了 7.5。这些结果使 R-HORIZON 成为一种可扩展、可控且低成本的范例,用于增强和评估 LRM 的长周期推理能力。