Reasoning Core: 用于 LLM 符号推理的可扩展 RL 环境

发表
Damien SileoDamien Sileo 提交
作者: Valentin Lacombe, Valentin Quesnel, Damien Sileo

摘要

AI 生成总结
Reasoning Core 是一个可扩展的 RLVR 环境,它生成多样化的符号推理问题以增强 LLM 的能力。
我们介绍了 Reasoning Core,一个用于可验证奖励强化学习(RLVR)的新型可扩展环境,旨在推进大型语言模型(LLMs)的基础符号推理能力。与专注于游戏或孤立谜题的现有基准不同,Reasoning Core 在核心形式化领域(包括 PDDL 规划、一阶逻辑、无上下文文法解析、因果推理和系统方程求解)中程序化地生成问题。该环境基于高通用性问题分布、通过外部工具进行验证以及连续难度控制等关键设计原则构建,共同提供了几乎无限的新颖训练实例供应。对前沿 LLMs 进行的初步零样本评估证实了 Reasoning Core 任务的难度,使其成为改进未来模型推理能力的有希望的资源。
查看 arXiv 页面查看 PDF
Reasoning Core: 用于 LLM 符号推理的可扩展 RL 环境

评论

Damien SileoDamien Sileo
论文提交者

我们提出了 Reasoning Core,一个用于具有可验证奖励的强化学习 (RLVR) 的新可扩展环境,旨在推进大型语言模型 (LLM) 的基础符号推理能力。与侧重于游戏或孤立谜题的现有基准不同,Reasoning Core 在核心形式化领域(包括 PDDL 规划、一阶逻辑、上下文无关语法解析、因果推理和系统方程求解)中程序化地生成问题。该环境基于高通用性问题分布、通过外部工具进行验证以及连续难度控制的关键设计原则构建,这些原则共同提供了几乎无限的新颖训练实例。对前沿 LLM 进行的初始零样本评估证实了 Reasoning Core 任务的难度,使其成为改进未来模型推理能力的有希望的资源。