ProtoReasoning:原型作为LLM中可泛化推理的基础

发表
Xinnian LiangXinnian Liang 提交
作者: Feng He, Zijun Chen, Xinnian LiangXinnian Liang, Tingting MaTingting Ma, yunqi qiuYunqi Qiu, Shuangzhi WuShuangzhi Wu, Junchi YanJunchi Yan

摘要

大型推理模型(LRMs)在长链式思考(Long CoT)推理训练方面的最新进展,已展现出卓越的跨领域泛化能力。然而,支持这种迁移的潜在机制仍知之甚少。我们假设跨领域泛化源于共享的抽象推理原型——它们是捕获跨领域问题本质的基本推理模式。这些原型最大限度地减少了表示的细微差别,揭示了看似不同的任务实际上根植于共享的推理结构。基于这一假设,我们提出了 ProtoReasoning,一个通过利用可扩展和可验证的原型表示(Prolog 用于逻辑推理,PDDL 用于规划)来增强 LLM 推理能力的框架。ProtoReasoning 的特点包括:(1) 一个自动化原型构建流程,将问题转换为相应的原型表示;(2) 一个全面的验证系统,通过 Prolog/PDDL 解释器提供可靠反馈;(3) 能够在原型空间中任意合成问题并确保正确性的可扩展性。大量实验表明,ProtoReasoning 在逻辑推理(Enigmata-Eval)方面比基线模型提高了 4.7%,在规划任务方面提高了 6.3%,在通用推理(MMLU)方面提高了 4.0%,在数学(AIME24)方面提高了 1.0%。重要的是,我们的消融研究证实,与仅在自然语言表示上进行训练相比,在原型空间中的学习也显著增强了对结构相似问题的泛化能力,这验证了我们的假设,即推理原型是大型语言模型中可泛化推理的基础。
查看 arXiv 页面查看 PDF

评论

Xinnian LiangXinnian Liang
论文作者
论文提交者

训练了长链思维(Long CoT)推理的大型推理模型(LRM)的最新进展,展现了卓越的跨领域泛化能力。然而,支持这种迁移的底层机制仍然知之甚少。我们假设,跨领域泛化源于共享的抽象推理原型——它们是捕捉跨领域问题本质的基本推理模式。这些原型最大限度地减少了表示的细微差别,揭示出看似多样化的任务实际上都基于共享的推理结构。基于此假设,我们提出了 ProtoReasoning,一个通过利用可扩展和可验证的原型表示(Prolog 用于逻辑推理,PDDL 用于规划)来增强 LLM 推理能力的框架。ProtoReasoning 的特点包括:(1) 自动化原型构建流程,将问题转换为相应的原型表示;(2) 综合验证系统,通过 Prolog/PDDL 解释器提供可靠反馈;(3) 在原型空间内任意合成问题的可扩展性,同时确保正确性。大量实验表明,ProtoReasoning 在逻辑推理(Enigmata-Eval)方面比基线模型提高了 4.7%,在规划任务方面提高了 6.3%,在通用推理(MMLU)方面提高了 4.0%,在数学(AIME24)方面提高了 1.0%。值得注意的是,我们的消融研究证实,与仅在自然语言表示上训练相比,在原型空间中学习也表现出对结构相似问题的泛化能力增强,这验证了我们的假设,即推理原型是大型语言模型中可泛化推理的基础。

Asankhaya SharmaAsankhaya Sharma

有趣的工作,但我原本期望性能提升会更大。特别是对于 AIME24,在 optillm (https://github.com/codelion/optillm) 中与 z3 结合使用时,我们确实看到了 AIME24 的显著改进。例如,使用 qwen2.5:14b-instruct-fp16 (与 ollama 结合) 时,我们看到 AIME24 分数从 10.00 上升到 20.00。