⏶18

CoRT：思维中的代码集成推理

06月11日发表

06月12日由 ChengpengLi 提交

作者: Chengpeng Li, Zhengyang Tang, Ziniu Li, Mingfeng Xue, Keqin Bao, Tian Ding, Ruoyu Sun, Benyou Wang, Xiang Wang, Junyang Lin, Dayiheng Liu

摘要

大型推理模型（LRMs）如o1和DeepSeek-R1在长链式思维（CoT）的自然语言推理方面取得了显著进展，但在处理复杂数学运算时仍效率低下或不准确。通过计算工具（例如，计算库和符号求解器）解决这些限制是有前景的，但这引入了一个技术挑战：代码解释器（CI）引入了超出模型内部文本表示的外部知识，因此直接组合效率不高。本文介绍了CoRT，一个用于教LRM有效高效利用CI的后训练框架。作为第一步，我们通过提示工程（Hint-Engineering）合成代码集成推理数据来解决数据稀缺问题，该方法策略性地在适当位置插入不同提示，以优化LRM-CI交互。我们手动创建了30个高质量样本，并在此基础上对1.5B到32B参数范围的模型进行了后训练，包括监督微调、拒绝微调和强化学习。我们的实验结果表明，提示工程模型在五个具有挑战性的数学推理数据集上，分别在DeepSeek-R1-Distill-Qwen-32B和DeepSeek-R1-Distill-Qwen-1.5B上取得了4%和8%的绝对提升。此外，与自然语言模型相比，提示工程模型在32B模型上使用的token量减少了约30%，在1.5B模型上减少了50%。模型和代码可在https://github.com/ChengpengLi1003/CoRT获取。

查看 arXiv 页面查看 PDF

ChengpengLi

论文提交者

我们很高兴分享我们的新论文“CoRT: 思考中的代码集成推理”！

🤖 一个训练后框架，它教导大型推理模型（LRM）更好地利用代码解释器来增强数学推理能力。

🔍 主要亮点：

LRM-CI 交互的策略性提示工程
仅凭30个高质量样本即可实现强大性能
在保持准确性的同时，将 token 使用量减少 30-50%
支持完整的训练管道：SFT → RFT → RL

📄 在 arXiv 上查看：https://arxiv.org/abs/2506.09820

💻 代码和模型：https://github.com/ChengpengLi1003/CoRT

CoRT：思维中的代码集成推理

摘要

评论