⏶18
CoRT:思维中的代码集成推理
发表
由
ChengpengLi 提交
作者: Chengpeng Li,
Zhengyang Tang, Ziniu Li, Mingfeng Xue, Keqin Bao, Tian Ding, Ruoyu Sun, Benyou Wang, Xiang Wang, Junyang Lin, Dayiheng Liu
摘要
大型推理模型(LRMs)如o1和DeepSeek-R1在长链式思维(CoT)的自然语言推理方面取得了显著进展,但在处理复杂数学运算时仍效率低下或不准确。通过计算工具(例如,计算库和符号求解器)解决这些限制是有前景的,但这引入了一个技术挑战:代码解释器(CI)引入了超出模型内部文本表示的外部知识,因此直接组合效率不高。本文介绍了CoRT,一个用于教LRM有效高效利用CI的后训练框架。作为第一步,我们通过提示工程(Hint-Engineering)合成代码集成推理数据来解决数据稀缺问题,该方法策略性地在适当位置插入不同提示,以优化LRM-CI交互。我们手动创建了30个高质量样本,并在此基础上对1.5B到32B参数范围的模型进行了后训练,包括监督微调、拒绝微调和强化学习。我们的实验结果表明,提示工程模型在五个具有挑战性的数学推理数据集上,分别在DeepSeek-R1-Distill-Qwen-32B和DeepSeek-R1-Distill-Qwen-1.5B上取得了4%和8%的绝对提升。此外,与自然语言模型相比,提示工程模型在32B模型上使用的token量减少了约30%,在1.5B模型上减少了50%。模型和代码可在https://github.com/ChengpengLi1003/CoRT获取。
我们很高兴分享我们的新论文“CoRT: 思考中的代码集成推理”!
🤖 一个训练后框架,它教导大型推理模型(LRM)更好地利用代码解释器来增强数学推理能力。
🔍 主要亮点:
LRM-CI 交互的策略性提示工程
仅凭30个高质量样本即可实现强大性能
在保持准确性的同时,将 token 使用量减少 30-50%
支持完整的训练管道:SFT → RFT → RL
📄 在 arXiv 上查看:https://arxiv.org/abs/2506.09820
💻 代码和模型:https://github.com/ChengpengLi1003/CoRT